推荐序1
推荐序2
推荐序3
推荐序4
赞誉
前言
第1章 互联网软件可靠性概论 1
1.1 为什么要研究互联网软件可靠性工程 1
1.1.1 大型互联网企业的典型案例回顾 1
1.1.2 研究互联网服务可靠性的迫切性和重要性 3
1.1.3 研究软件可靠性工程是未来更复杂的软件产品发展的需要 3
1.2 什么是可靠性工程 3
1.2.1 可靠性与可靠性工程概述 4
1.2.2 可靠性工程发展的3个阶段 4
1.2.3 传统物理可靠性工程方法 6
1.3 软件可靠性工程 9
1.3.1 软件可靠性工程的概念 9
1.3.2 软件可靠性工程发展的两个阶段 10
1.4 互联网软件的可靠性 16
1.4.1 相关名词介绍 16
1.4.2 互联网软件可靠性工程现状及挑战 18
1.4.3 互联网软件可靠性工程方法发展的3个阶段 21
1.5 互联网软件可靠性工程的工作思路 26
1.5.1 理解软件可靠性的3个核心问题 26
1.5.2 建立可靠性工程体系框架的思路 30
1.6 本章小结 31
第2章 互联网软件可靠性工程及可靠性度量 32
2.1 软件生命周期的可靠性工作 32
2.1.1 互联网软件生命周期的可靠性工作及原则 33
2.1.2 需求阶段的可靠性工作 34
2.1.3 设计与实现阶段的可靠性工作 35
2.1.4 测试与验证阶段的可靠性工作 37
2.1.5 部署与发布阶段的可靠性工作 38
2.1.6 持续运行阶段的可靠性工作 39
2.2 故障生命周期的可靠性工作 41
2.2.1 监控故障 42
2.2.2 故障定界定位 42
2.2.3 修复故障 43
2.3 可靠性工程6种能力综述 44
2.4 互联网软件可靠性度量与评价 45
2.4.1 可靠性度量介绍 45
2.4.2 可靠性度量和分析方法 47
2.4.3 软件可靠性度量过程 54
2.4.4 如何制定可靠性目标 58
2.5 本章小结 60
第3章 互联网软件可靠性设计与分析 61
3.1 为什么要进行可靠性设计 61
3.1.1 什么是可靠性设计 61
3.1.2 可靠性是设计出来的 62
3.2 可靠性设计原则与通用方法 64
3.2.1 可靠性设计的原则 64
3.2.2 可靠性设计的4种方法 65
3.3 软件可靠性架构模型 68
3.4 可靠性分析与架构风险 72
3.5 可靠性分配 74
3.5.1 可靠性分配的目的 74
3.5.2 可靠性分配的原则 75
3.5.3 可靠性分配的方法 75
3.6 架构分层设计及其可靠性方法 76
3.6.1 可靠性视角的分层架构 77
3.6.2 业务架构的可靠性设计 78
3.6.3 应用架构的可靠性设计 78
3.6.4 系统架构的可靠性设计 85
3.6.5 部署架构的可靠性设计 92
3.6.6 基础设施架构的可靠性设计 97
3.6.7 可靠性相关能力的设计 99
3.7 架构可靠性评审 99
3.7.1 评审目的 99
3.7.2 评审过程 100
3.7.3 评审方法 101
3.8 可靠性预计 102
3.9 本章小结 103
第4章 可靠性观测能力建设与实践 104
4.1 建设观测能力的目的 104
4.2 排查、监控、观测技术的发展 107
4.2.1 登录服务器通过系统命令排查问题 107
4.2.2 集中式监控系统与日志系统 110
4.2.3 可观测性 115
4.2.4 观测能力与监控 116
4.2.5 建立综合的观测能力 117
4.3 监控观测的感知场景与感知方式 118
4.3.1 业务可靠性感知 119
4.3.2 影响范围及原因定界定位 121
4.3.3 帮助理解复杂系统结构并自动建模 126
4.3.4 智能告警条件的数据感知 129
4.3.5 根因推荐与排查诊断、决策 131
4.3.6 容量感知与弹性 135
4.3.7 人的感知与决策能力 137
4.3.8 场景化的固化大盘 138
4.3.9 巡检与非实时分析 140
4.4 观测能力设计 141
4.4.1 设计原则 141
4.4.2 设计方法 143
4.5 观测能力要求与度量 148
4.5.1 定性要求与分析 148
4.5.2 定量要求与分析 150
4.6 观测能力建设实践 154
4.7 本章小结 157
第5章 故障修复、综合保障能力建设与实践 158
5.1 软件故障修复能力概述 158
5.1.1 什么是软件故障修复能力 158
5.1.2 修复能力是现代软件系统的重要能力 159
5.1.3 研究故障规律是修复能力的基础 159
5.2 软件故障修复能力设计与建设 160
5.2.1 设计原则 160
5.2.2 预案平台的设计 163
5.2.3 变更型故障快速修复 167
5.2.4 灾难型故障快速修复 171
5.2.5 容量型故障快速修复 175
5.2.6 应急协同 177
5.3 运维保障能力 184
5.4 修复能力的度量和要求 188
5.4.1 定性要求 188
5.4.2 定量要求与评估 189
5.5 修复能力及保障能力建设实践 193
5.5.1 虎牙音视频修复能力实践 193
5.5.2 预案平台建设实践 194
5.5.3 虎牙带宽资源保障能力实践 196
5.6 本章小结 196
第6章 可靠性试验与反脆弱能力建设与实践 197
6.1 互联网软件可靠性试验与反脆弱能力概述 197
6.1.1 什么是可靠性试验与反脆弱能力 198
6.1.2 为什么要反脆弱 199
6.2 软件系统的脆弱性因素分析 200
6.2.1 环境、产品、人的关系 201
6.2.2 脆弱性因素分析 202
6.3 反脆弱能力建设与分析 212
6.3.1 应对脆弱性的思路 213
6.3.2 反脆弱能力建设原则 213
6.3.3 环境脆弱性的可靠性试验:混沌工程 214
6.3.4 软件系统自身的可靠性试验:故障注入 218
6.3.5 人为因素反脆弱设计:故障演练 221
6.3.6 变更型故障反脆弱设计:变更管控 222
6.4 可靠性试验与反脆弱能力的要求 223
6.4.1 定性要求 223
6.4.2 定量要求 226
6.5 实践案例 227
6.6 本章小结 230
第7章 可靠性管理能力 231
7.1 可靠性管理工作概述 231
7.2 软件可靠性工作规划及目标管理 235
7.3 故障治理 237
7.3.1 故障复盘 238
7.3.2 故障评审定级 243
7.3.3 定期回顾可靠性 247
7.4 人员与团队管理 248
7.4.1 可靠性工程师团队 248
7.4.2 团队转型 250
7.5 以SRE方式运维业务 254
7.5.1 以SRE方式接手现有业务 255
7.5.2 接手新业务 256
7.6 本章小结 257
· · · · · · (
收起)
1 有用 烧羊肉 2023-04-16 11:05:16 上海
中国式SRE实践 相比谷歌更贴近现实 不过熟悉的思路和方案 践行的步伐却异常得缓慢艰难
0 有用 忆之独秀 2023-10-15 10:41:35 上海
提出的一些指标不错。
0 有用 J.Yang 2024-02-01 21:32:22 江苏
讲解的很具体,提到了很多细节,是一本适合入门者学习的书。
0 有用 J.Yang 2024-02-01 21:32:22 江苏
讲解的很具体,提到了很多细节,是一本适合入门者学习的书。
0 有用 忆之独秀 2023-10-15 10:41:35 上海
提出的一些指标不错。
1 有用 烧羊肉 2023-04-16 11:05:16 上海
中国式SRE实践 相比谷歌更贴近现实 不过熟悉的思路和方案 践行的步伐却异常得缓慢艰难