“让IT更保险”深度解读系列之三:企业IT运营的主要痛点

发布时间:2022.10.19

234.png

痛点一强烈的不安全感


回顾前文,我们了解到,企业IT运营的现状是:

1、由于涉及技术面广、专业化程度高,大多数企业IT系统的前期开发建设和后期运营维护普遍采用外包模式;

2、由于承载的业务重要性高、系统停摆造成的影响/损失大,所以企业IT系统运营的时效性要求非常高;

3、由于IT系统是高度复杂的互操作环境,并且因业务需求不断变化而处于持续的动态管理过程中,日常运维工作量大,系统原因和人为因素造成的风险很高。


根据调查,全球每年每500个大型数据中心就有1个面临严重的宕机事故,有40%的公司每年需要1天时间进行数据恢复,有7%的公司用时超过1天。来自国外专业机构的研究显示,各行业数据中心的业务中断损失分别为:

 

12312313123.png


如今,云计算越来越大行其道,企业上云的热情日益高涨。殊不知,上云带来的风险其实很大,因为传统架构下,企业中各业务系统相对分离,局部故障/问题只导致局部业务受损;但上云以后由于资源进行整合利用、统一管理,有时候一个局部故障/问题会突然造成整个数据中心业务全面受到影响。云计算的复杂性使安全问题并不局限在单一设施,而是上升到了系统整体层面。


近年来,云业务发生重大损失的案例很多,仅2020年一年,全球主流云计算厂商就发生数十起宕机事故,华为云、苹果iCloud云存储服务都发生过大面积业务中断。


2021年11月16日,谷歌云宕机事件导致许多依赖于谷歌云的大型公司网站中断服务,其中包括YouTube、Gmail和Google Search。同年12月,AWS也连续发生3次宕机,造成迪斯尼、奈飞、Zoom、PSN、Xbox Live等大量热门网站在线业务的中断。


2022年3月,苹果云两天内出现两次宕机事故,使得Apple Music、Podcasts、Books、App Store的大量客户受到影响。

 

11214124.png

 

众所周知,企业运营的核心是数据


那么,数据丢失造成的影响具体有多大呢?


2020年7月,IT Policy Compliance Group发布的《为什么需要合规性——风险之下的信誉与收入》的研究报告显示:有87%被调查的企业面临因数据丢失或被盗而导致的财务风险。Gartner Group的数据表明,在经历了数据完全丢失而导致系统停运的企业中,有2/5再也没能恢复运营,余下的企业也有1/3在两年内宣告破产。也就是说,六成企业因数据完全丢失而倒闭。


此外,部分数据的丢失或被盗同样会给企业造成严重损失。造成系统不可用和数据丢失的原因很多包括:硬件故障、人为原因、电力供应中断、网络攻击、灾害意外等。以下是一些广为人知的案例。

人为原因

 

2015年5月28日,中国*大的出行度假服务平台——携程的官网和app同时崩溃,网络瘫痪问题持续了近12个小时。事后查明是由于携程运维工程师一次操作失误,删除了生产服务器上的代码。受此影响,携程的盘前股价暴跌11.67%。按照携程公布的数据,宕机损失平均每小时为106.48万美元。


2017年9月8日,广西移动发生了因华为工程师在扩容割接时连续误操作,把HSS设备中用户数据删除的重大事故,导致广西南宁地区80万移动用户一度不能使用移动通信,为此中国移动客服中心10086共接到投诉20727起。据说,因此次事故,华为公司向中国移动支付了巨额罚金。


2018年6月4日,链家网一名员工利用其担任数据库管理员并掌握公司财务系统root权限的便利,登录链家财务系统服务器,删除了财务数据及相关应用程序,致使系统无法登录。链家为恢复数据及重构系统花费了18万元。如果不是数据备份得当,损失则还要大得多。


2018年9月19日,顺丰一位高级工程师在日常运维工作中不慎删除了RUSS 数据库,导致OMCS运营监控管控系统发生故障,临时车线上发车功能无法使用,故障长达10小时。此次事故对顺丰的业务运营产生严重负面影响。


2020年2月23日,微盟SaaS业务整体瘫痪,波及300万商户的线上生意几乎完全“停摆”,原因竟然是一个微盟的技术人员因“生活不如意、无力偿还网贷”等个人原因发泄不满,他不仅删除了生产数据,甚至下死手删除了备份数据。在经历8天14小时的紧急抢修后,直到3月3日上午9点微盟才正式恢复业务,并为此发布了1.5 亿元的商家赔付计划。


2020年5月13日,特斯拉手机APP宕机,导致手机与车机无法连接,账号也无法登录。虽然特斯拉对此讳莫如深,但车主通过相关系统查询显示,当时特斯拉服务器域名证书处在过期的状态,这是IT运营管理中一次非常低级的人为失误。


2021年10月4日,Facebook发生史上*严重宕机,全球有35亿用户近6个小时无法使用Facebook、Instagram、WhatsApp、Messenger等社交平台,公司市值一夜蒸发三千亿。究其原因是在一项日常维护工作中,Facebook工程师们发出了一条用于评估全球骨干网容量可用性的指令,但却意外切断了骨干网络中的所有连接。

 

网络攻击

 

由于网络攻击造成的企业业务中断和数据失窃事件同样屡见不鲜,网络攻击事件的类型包括:分布式拒绝访问攻击、后门攻击、漏洞攻击、网络钓鱼和干扰事件等。


2018年9月3日,山东不动产登记系统遭到病毒入侵,波及10个市,山东多地发布暂停受理不动产业务登记的通告。经查证,不动产登记系统受到的是勒索病毒GlobeImposter的攻击。


2018年11月30日,万豪国际发布声明称旗下喜达屋酒店客房预订数据库被黑,约3.27亿住店旅客信息泄露。如果万豪向受害者以每本护照110美元支付赔偿,将总计支付360亿美元,这个数字相当于该公司的整个市值。


2019年9月6日,维基百科网站在全球范围内服务中断了将近9个小时。由于DDoS攻击击垮了目标网络的基础设施,并在服务提供商网络内部造成拥塞,高达60%的数据包丢失。


2021年3月,计算机巨头宏碁(acer)遭到REvil勒索病毒攻击,黑客组织提出了迄今为止数额*大的赎金:5000万美元。黑客组织成功闯入了宏碁的系统,窃取了大量文件,其中包括财务电子表格、银行结余和银行往来邮件。


2021年5月13日,美国科洛尼尔输油管系统科洛尼尔公司遭黑客“勒索病毒”攻击,瘫痪五天。这是有报道的网络勒索事件中,影响程度*严重的一次,并带来了一系列社会问题,包括民众的加油恐慌、油价大幅上涨和大面积油荒等。


2022年4月初,圣象集团下属子公司遭遇邮箱入侵,黑客们侵入了该公司租用的微软公司365邮箱系统,伪造假电子邮件、供应商文件及邮件路径,骗取了356.9万美元。


2022年9月5日,中国国家计算机病毒应急处理中心发布了关于西北工业大学遭受境外网络攻击的调查报告,报告称美国国家安全局旗下的组织持续对西北工业大学实施网络攻击,窃取该校关键网络设备配置、网管数据、运维数据等核心技术数据。

 

系统缺陷

 

2017年2月28日晚8点39分,百度移动端搜索发生故障,搜索请求无法显示结果,至晚9点21分恢复,历时42分钟。故障期间导致手机用户上亿次的搜索受到影响。后经查明,故障源自于软件更新中存在BUG(漏洞)。


2021年1月18日,微信突现BUG,事件引4.4亿次热议。事故中微信用户发出的多条消息只能被收到一部分,并且延迟很长时间。事后腾讯证实故障原因是存在系统抖动缺陷:物理内存耗尽后,处理器频繁请求页(虚拟内存,硬盘上的大小相同的块)导致无法处理用户的需求进程,形成I/O阻塞。


2021年11月16日,全球*大云服务提供商之一谷歌云出现宕机,导致许多依赖于谷歌云的大型公司网站中断服务。祸端来自于技术人员错误配置外部代理负载平衡(GCLB)。此前Google工程师发现了该漏洞,但尚未来得及推出补丁就发生了事故。


2021年5月11日晚上9时开始,Salesforce遭遇了一次长达5小时的全球宕机,致使15万客户业务受到严重影响。这次宕机的原因是一位维护工程师不当使用了一个“稳定可靠”的脚本程序,而程序中存在重大BUG。


2022年,零日漏洞频出,苹果被迫发布了面向iOS、iPadOS和MacOS的紧急更新,修复已经被网络犯罪分子利用的一对零日漏洞。苹果操作系统iOS中允许远程执行代码的零日漏洞在市面上售价高达800万欧元。

 

意外灾害

 

2015年8月12日,天津港发生大爆炸,爆炸中心距离腾讯天津数据中心仅有1.5公里,巨大的冲击波使得这个面积8万平方米、拥有20万台服务器的大型数据中心“柴油发电机的门墙都扭曲了”、“整个冷机系统宕机,冷冻水管爆管,地下水发生严重水浸”。


2018年9月5日,微软Azure云遭遇恶劣天气影响,停止服务超过3小时。


2021年3月,云计算巨头OVH位于法国斯特拉斯堡的数据中心失火,4个数据中心当中的1个被完全烧毁,另1个部分受损,360万个网站被迫下线。许多客户的服务器被烧毁,数据全部丢失无法恢复任何数据。受影响的客户包括欧洲航天局、法国政府、加密货币交易所 Deribit等。


2021年12月2日,位于印度尼西亚雅加达南部库宁安的“Cyber 1 Data Center”大楼由于起火,导致互联网服务和数据中心业务中断,两名技术人员在此次火灾中不幸遇难。


2022年9月16日,湖南电信长沙荷花园枢纽大楼外墙突发大火,所幸并未造成人员伤亡和大批量设备损毁,但此事也引发了普遍性的社会关注,部分用户手机通话功能因此受到影响。

 

供电中断

 

2019年9月5日,雅虎网站出现全球性宕机,连带雅虎的邮件、搜索等服务也不可用。雅虎方面回应称,系因服务器停电。


2021年10月9日凌晨,互联网券商富途证券App出现故障,用户无法登录进行交易长达2个小时,事故原因为“运营商机房电力闪断导致的多机房网络故障”。


2021年12月,AWS发生了3次宕机。其中第三次宕机是由于数据中心供电问题引发。


那么在这么多风险因素中,哪个因素引起的业务中断占比*大?数据中心性能研究机构UPTIME INSTITUTE在分析了4500起数据中心事故(包含400次完全宕机事件)后得出结论:人为原因引发了大约70%的数据中心故障。


企业的生存发展离不开IT系统,但IT运营的风险来自于四面八方,例如对于系统中潜伏的“后门”和Bug事先无从知晓,对于运维过程中突发的意外情况往往猝不及防。许多问题和隐患在日常运营中没有被及时发现,许多损失和责任事故受到掩盖。这些都带给企业强烈的不安全感注:“后门”一般是指那些绕过安全性控制而获取对程序或系统访问权的实现手段。在应用系统、芯片、编译器、算法、开源管理工具、甚至补丁程序中都可能被安插后门。


对于各种突发故障/问题,IT运营部门首当其冲被“关注”。


在企业内部,IT运营部门平时存在感并不突出,可是一旦发生重大故障影响业务,却立即成为全公司瞩目的“焦点”。越是了解IT运营,就越会对风险和隐患深感不安。IT运营的安全感来自于对自身和环境的可知与可控。数字时代,*大痛点就是看不见

 

1212121.png

 

痛点二购买服务难


经过不断建设,当前企业IT系统越来越复杂,IT运营维护成本也越来越高,在外包服务过程中企业也面临着诸多难题。

 

规划难:打包还是拆包,选择何种服务商

 

企业IT系统涉及的软硬件产品种类繁多,需要的服务内容多样,有维保服务、驻场服务、专业技术服务等,很多供应商都有能力的局限性,往往只侧重在某些服务领域,并不能全面满足客户需求,客户不得不考虑如何拆分项目进行采购。


以IT后市场中*常见的维保服务业务为例,企业既可以按业务系统纵向一体化打包外采服务,也可以按厂商品牌把各种设备归集起来进行服务外采,还可以按照软件/设备的类型分别组织购买。无论哪种方式,都需要与多个服务商分别签约。如果企业偏好按业务系统采购维保,往往会指向原来的应用开发商或系统集成商,但应用厂商其实只熟悉自己开发的上层应用,往往并不具备IT基础设施的运营维护能力(如东软集团在成都核酸检测系统瘫痪事件中的声明),很多集成商主要能力体现在打包供应产品和软硬件安装调试方面,对运维并不擅长。


所以,即使他们承接了整个项目也往往会进行二次转包;如果企业偏好按设备品牌打包进行服务采购,就要找原厂商或第三方维保服务商。但原厂商通常都只熟悉自己公司的产品,而第三方服务商的整体服务能力又普遍存在不足。

 

选择难:买原厂服务还是三方服务

 

在一些不差钱的客户(比如金融客户、大型国企)眼里,如果购买由产品原厂商提供的运维服务,虽然价格高昂,但出现重大问题时,企业IT运营部门自己担负的责任相对较小,因为在普遍意识中会认为,原厂服务既然*贵,那么也就是*好的服务资源。IT运维花费的是企业资金,IT运营部门领导不会因为节省开支而获益,就更不想为了省钱而在发生事故时承担更大责任。


另外,有些客户还有门当户对的心理,认为原厂服务更加高大上。但是,由于IT系统的高集成度和松耦合性,涉及的产品品牌众多,企业客户选择购买原厂服务就普遍会面临服务价格昂贵、服务内容/流程僵化的问题,并且还会陷入烟囱林立的局面:首先,客户必须通过各厂商指定渠道分别采购,甚至有些厂商因为内部设立不同部门,且分别核算业绩,还会要求客户进一步分拆采购项目,客户就不得不签署一大堆采购合同。除了商务上费钱费时费力,*要命的其实在于,当系统发生复杂故障/问题时,各厂商往往选择自扫门前雪、对问题互相推诿,置客户于无所适从的窘迫境地。


企业如果选择购买第三方服务,可以实现服务界面和商务界面的集成,不再需要签署一大堆服务合同,有问题可以只找一家服务商解决,但又会面临另外的苦恼:因为第三方服务市场鱼龙混杂、严重缺乏统一标准,导致服务商相互间恶性竞争、对客户虚假承诺、服务资源以次充好,有时还会遭遇原厂商的抵制。虽然第三方服务在价格上普遍比原厂便宜很多,但相当一部分服务商的实际服务保障性差,性价比很低,对于很多故障和问题无法解决,一拖再拖。


除此以外,第三方IT服务市场普遍存在服务商层层转包的乱象,大量利润流失在中间环节。

 

采购难:采购流程繁琐,问题层出不穷

 

由于合规性要求,企业采购IT运维服务时需要经历从立项、审批、招投标、履约到验收的整个项目生命周期,时间跨度大、过程繁琐、需要投入大量人力物力财力。需求部门和采购部门间的博弈屡见不鲜:因为各部门考核标准不同,需求部门强调质量、采购部门强调降成本,各有立场,甚至各自有不同的供应商偏好,服务采购过程中有大量人为操作空间和权力寻租机会。


在甄选供应商和执行采购程序时,为了控制招标结果,相关人员经常花大量精力设定供应商选拔标准和评标办法,各种奇葩条款层出不穷、屡见不鲜。这背后是服务商们在各显神通、相互角力。第三方服务在价格方面完全没有标准,许多服务商不是把精力投入在服务交付能力建设上,而是大量投入于客户关系开发,通过利益交换获取项目然后再层层分包转包。采购过程中,经常出现各种问题和纠纷,围标、投诉、举报各种乱象频出。


事实上,随着企业IT基础设施的规模和重要性不断提升,IT运营面临的复杂度和风险显著增加,企业日益需要更加全方位的保障以应对风险。企业需要的服务保障不仅要涵盖故障处理、性能优化等IT运维服务,也要能对冲因业务中断、设备意外损失、数据意外损失、网络安全等各方面风险带来的损失。但是,传统的IT服务商由于自身资源禀赋的局限性,往往只能提供运维服务,普遍不敢也不能承担更多的保障责任。


汇总而言,上述这些问题的根本原因在于IT后市场的供应和需求严重错配。很多人可能会惊讶,在跨界创新和互联网新商业模式大行其道的今天,万亿级的企业IT后市场中服务供给模式竟然还停留在非常传统和落后的局面,IT服务供应链仍呈现着离散式和碎片化的形态。IT服务行业与互联网行业看似近亲,实则远邻。

 

一言以蔽之,今天的企业IT后市场,客户期待更加全面有效的服务保障和更加简单舒心的采购体验,IT服务行业亟需商业模式进化和供应链体系升级。


上一篇:“让IT更保险”深度解读系列之二:企业IT运营管理有哪些主要特点

下一篇:金融数字化转型全面加速,保险行业数据能力如何构建?

推荐新闻