本周工作思考
脱敏处理
- Cloudflare 事故的思考
- 本周Cloudflare 发生了严重的事故,对我们没有影响,不过作为工程师我也深有感触,也值得用他人的血泪教育一下自己。
- 很多事故都是发生在不经意的一个小失误和小bug,工程开发不能存在侥幸心理。从自身来说,要不断的提醒自己要严谨,认真做功能设计,严谨写每一个方法,尽可能保证每一行代码的健壮,考虑到尽可能多的异常情况,边界情况,特别是让大模型想尽可能多的非预期的可能,如在大模型使用文件记忆时,要考虑到如果硬盘慢了怎么半,文件权限被篡改了怎么办,多线程如何同步等。
- 很多事故都是小概率事件,但是事故的复杂就是事故之前从理性想似乎是绝无可能发生,事故后又会觉得它一定会发生。这种认知距离究竟是怎么产生的,如何避免这种认知距离实际上很重要的事情。
- 最近结合uShow的问题,我也顺带学习了一下Datadog + Pagerduty + Slack 的告警机制和事故处理流程机制。对于复杂而又真实的世界来说,事故的发生难以避免,从务实的角度出发,在做好质量保障之外,建立切实可行的事故处理流程是至关重要的,遇事不慌,临危不乱,紧急有序响应,各团队协同合作,让损失降到最低。