2017-05-02    58沈剑

<span style="font-size: 14px; background-color: inherit;">互联网,讲究快速迭代,快速上线,敏捷开发。</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">有些**固定上线时间**的项目,可能因为技术方案变化,导致测试时间压缩,最终导致上线出问题,而由运维来背锅。</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">为保住KPI,运维有很多心里话想和研发测试说一说:</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">(1)&ldquo;**敏捷开发,频繁交付**&rdquo;的KPI,真不是增加运维人手就能解决的,需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">自动化回归</span>的支持,需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">自动化上线</span>的支持</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">(2)&ldquo;**上线失败,快速回滚**&rdquo;的KPI,真不是增加运维人手就能解决的,需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">回滚方案</span>的支持,而<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">回滚方案真的测试</span>过么</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">(3)&ldquo;**快速扩容,快速响应**&rdquo;的KPI,真不是增加运维人手就能解决的,需要架构设计的支持(很多系统无法<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">水平扩展</span>,来了机器,无法扩容),需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">快速部署</span>的支持,需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">服务发现</span>的支持(所有上游修改配置重启肯定是不行的),需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">压力测试和容量评估</span>的支持</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">(4)&ldquo;**系统高可用**&rdquo;的KPI,真不是增加运维人手就能解决的,需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">优雅降级</span>的支持,需要架构设计的支持,如何评判系统是否<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">高可用</span>?这个简单,关掉线上任何一台机器试试,看用户服务是否受影响,如果受影响,研发哥哥们拜托了</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">(5)&ldquo;**快速故障报警**&rdquo;的KPI,真不是增加运维人手就能解决的,需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">监控系统</span>的支持(操作系统和运维层面的监控,我们可以实施,但错误日志、接口、业务的监控呢?),另外报警短信能少一点么,过度报警会让人变得&ldquo;麻木不仁&rdquo;的</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">(6)&ldquo;**快速故障定位**&rdquo;的KPI,真不是增加运维人手就能解决的,需要数据<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">量化健康信息</span>的支持(58到家的守望者平台做的还是不错的),需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">快速诊断</span>的支持(58到家的调用链跟踪系统做的还是不错的)</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">(7)&ldquo;**快速故障恢复**&rdquo;的KPI,真不是增加运维人手就能解决的,需要<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">故障转移</span>的支持,相信我们,故障发生时,如果运维人员不知道怎么抉择,且又必须做出抉择,这时的抉择往往是错的(我们能做的,是重启),我们也不想凌晨打给你们,但希望你们能实现<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">自动化</span>方案</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">(8)&ldquo;**内审合规**&rdquo;的KPI,真不是增加运维人手就能解决的,在资源允许的情况下,请<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">不要手动删除任何资源</span>,数据是很重要的资源。<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">访问控制</span>和<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">权限申请</span>的流程,真的不是限制大家,相反,哪一次数据的误删除,不是我们加班来恢复的?宝宝心里苦呀</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">我们的KPI都掌握在大家的手里,技术一家人,希望研发测试的同学理解。</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">大家还有什么<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">苦水</span>?一起说一说。</span>

&nbsp;

<span style="font-size: 14px; background-color: inherit;">这个问题,大家也自己问一问,<span style="color: rgb(255, 104, 39); font-size: 14px; background-color: inherit;">关掉线上任何一台机器,用户服务受影响么?</span></span>