Notes: Site Reliability Engineering

masterplan 评论 SRE: Google运维解密 4 2017-05-11 08:28:11
迈克尔
迈克尔 (做好事业,娶好姑娘,生小超人) 2017-11-30 21:52:54

* 大型系统中, 遇到问题首要做的是尽可能恢复服务, 而不是查找问题根源.

如果不确定根源,很多时候没法尽快回复服务,或者恢复服务后,问题又很快会发生。比如通过重启程序可以解决问题,但是根本原因还在于代码逻辑上的问题,重启只是临时解决。

masterplan
masterplan (go deeper) 2017-11-30 22:24:14
* 大型系统中, 遇到问题首要做的是尽可能恢复服务, 而不是查找问题根源. 如果不确定根源,很... * 大型系统中, 遇到问题首要做的是尽可能恢复服务, 而不是查找问题根源. 如果不确定根源,很多时候没法尽快回复服务,或者恢复服务后,问题又很快会发生。比如通过重启程序可以解决问题,但是根本原因还在于代码逻辑上的问题,重启只是临时解决。 ... 迈克尔

立即回滚. 查找根源所需时间是个未知数

迈克尔
迈克尔 (做好事业,娶好姑娘,生小超人) 2017-12-14 14:39:04
立即回滚. 查找根源所需时间是个未知数 立即回滚. 查找根源所需时间是个未知数 masterplan

如果线上一个跑了一段时间的业务突然出现异常。 没有回滚一说的。

> 豆瓣违规公示