下午两点五十五分,陈末站在花园长椅旁,感觉比第一次面试还紧张。
他手里拿着一个笔记本和一支笔——既然林薇要“请教问题”,他觉得应该正式一点。笔记本是从房间里找的,节目组准备的文具套装里的,封面印着度假村的LOGO。笔是普通的黑色水笔,他用手指试了试,出水流畅。
长椅在花园深处,周围是高大的热带植物,形成一个相对私密的空间。阳光透过树叶洒下来,在地上投出斑驳的光影。远处能听见海浪声,还有偶尔的海鸟鸣叫。
很安静。太安静了。
陈末看了眼时间,还有三分钟三点。他犹豫着是先坐下,还是站着等。最后选择了站着——坐下显得太随意,站着又太正式。他调整了一下站姿,觉得怎么都不对。
两点五十八分,林薇来了。
她穿了一件浅蓝色的衬衫和白色长裤,头发扎成低马尾,戴了一副金丝边眼镜。这打扮让她看起来更像学者而不是影后。手里拿着那本《Linux服务器运维实战》,书里夹着几张便签纸。
“抱歉,来晚了。”林薇说,声音依然有些哑。
“没晚,刚好。”陈末说。他看了眼时间,两点五十九分。
林薇在长椅一端坐下,把书放在腿上,翻开到第七章。陈末在她旁边坐下,中间隔了一个人的距离。
“谢谢你能来。”林薇说,她摘下眼镜,揉了揉鼻梁,“我昨晚看了一部分,有些地方不太明白。”
“哪里?”陈末打开笔记本,准备记录。
林薇翻到一页,指着一段:“这里,‘监控指标的选择应该基于业务价值而非技术便利性’。什么意思?”
问题很具体。陈末组织了一下语言:“意思是,你监控什么,要看它对业务有多重要,而不是看它容不容易监控。比如一个电商网站,订单支付成功率比服务器CPU使用率更重要,因为前者直接影响收入。”
林薇点点头,在书页边缘做了个记号。她的字很工整,是那种练过书法的小楷。
“那如果……”她停顿了一下,似乎在斟酌措辞,“如果一个人的‘业务价值’不明确呢?”
陈末愣住了。这问题又偏离技术了。
“什么意思?”
林薇看着书,没看他:“系统有明确的功能和目标,所以能定义什么是重要的指标。但人……人的‘业务价值’是什么?怎么定义?”
花园里很安静。远处传来隐约的钢琴声,不知道是谁在弹。
陈末放下笔,认真思考这个问题。林薇不是在问技术,她在问哲学,或者心理学。
“运维里有个概念叫SLO,”他说,“服务等级目标。就是定义系统应该提供什么样的服务水平。比如‘99。9%的请求响应时间小于200毫秒’。有了SLO,才能知道系统是否健康。”
“那人呢?”林薇追问,“人的SLO是什么?”
陈末看着她。林薇的眼睛在眼镜后面,眼神很认真,甚至有些迫切。她在等一个答案,一个真正的答案。
“我不知道。”陈末诚实地说,“每个人的SLO可能不一样。但我觉得……可能和快乐有关?或者满足感?成就感?”
“怎么量化?”
“没法量化。”陈末说,“人不是机器。”
林薇沉默了。她看着书,手指在页面上轻轻划过。阳光从树叶间隙漏下来,在她手上投下跳动的光斑。
“第7。4节,”她换了个话题,“讲告警策略。你说要有分级告警,不能所有问题都触发最高级别告警。为什么?”
“因为如果什么都报警,真正的紧急情况反而会被忽略。”陈末解释,“这叫告警疲劳。运维人员会麻木,错过真正重要的告警。”
“怎么确定什么该报警?”
“看影响范围和紧急程度。”陈末说,“比如整个服务挂了,立刻报警。某个边缘功能有问题,可以等到工作时间处理。某个指标轻微异常但服务正常,可能只是观察,不报警。”
林薇做了个深呼吸。这个动作很轻微,但陈末注意到了。
“如果……”她声音更轻了,“如果一个人总是处于‘轻微异常但服务正常’的状态呢?”
陈末这次听懂了。她真的在说自己。
“那就需要调整监控策略。”他说,尽量用技术语言回应,“也许这个‘轻微异常’实际上很重要,只是之前被低估了。或者……需要重新定义什么是‘正常状态’。”
林薇抬起头,看着他。眼镜片后的眼睛有些泛红,不知道是疲劳还是别的什么。
“重新定义正常状态。”她重复这句话,像是在咀嚼每个字的含义。