“让IT更保险”深度解读系列之二:企业IT运营管理有哪些主要特点

发布时间:2022.10.19

123.png


广义上来讲,政府公共服务也是企业信息化的一个领域。今天,让我们通过回顾近期在政府公共服务事务中一度冲上微博热搜**的"成都核酸检测信息系统多次崩溃事件",以小窥大,剖析企业IT系统运营的基本特点。


9月1日,因新冠疫情加重,成都市启动应急管理措施,计划在4天之内面向全市2000多万人口完成3轮全员核酸检测任务,可谓时间紧、任务重。但就在这个疫情防控的关键时期,成都核酸检测系统却多次发生故障:从9月2日至4日期间,成都地区医护人员在登记核酸检测信息时屡屡出现问题,有时加载页面失败,有时提示信息提交错误,由此造成大量成都市民长时间排队无法正常进行核酸检测。


在成千上万成都人的吐槽声浪中,相关IT系统的承建单位和运营单位走向了风口浪尖。首先遭到质疑的是“四川天府健康通”的运维服务提供方浪潮软件和腾讯云。


图片

浪潮软件和腾讯云中标四川天府健康通运维项目  ▲ 


随着了解的深入,人们很快意识到“四川天府健康通”只是成都市核酸检测系统的前端入口,真正出现问题的应该是核酸检测信息系统本身(全称为“全场景疫情病原体检测信息系统”)。9月3日下午,在第二次发生大面积崩溃后,该系统供应商东软集团发表声明,大意为:东软集团开发的核酸检测系统属于应用软件,其能否顺畅运行与核酸码等相关应用系统、后台服务器、算力、网络带宽,甚至防火墙配置等因素紧密相关,而这些系统并非由东软集团提供。东软集团方面认为9月2日的故障原因在于系统刚刚上线,各方未做好联调,而9月3日下午再次发生的大面积故障原因则是网络系统出现了问题。


图片
图片

东软集团方面就此事的声明  ▲ 


东软集团的这份声明与年初西安一码通连续崩溃造成严重影响后东软集团董秘发声的口径如出一辙,基本逻辑都是:东软集团只负责开发和维护*上层的应用软件,但整个系统很复杂、涉及面很广,出现的故障并不仅是东软集团的问题。


在该声明发布仅一个多小时后,四川通信管理局就随即发布了被外界认为是针对东软集团声明的“打脸性”公告:全市通信网络运行平稳,各核酸检测点移动网络覆盖良好,没有出现网络拥塞和故障。不仅是政府方面,成都市民也不认同东软集团的说法,纷纷发声道“显然这不可能是信号的问题,我们排队的人刷视频、聊微信都在用着网,一点都不卡”。


成都核酸检测信息系统崩溃的真实原因是什么,业内仍在热议。客观来看,网络通道/环境不一样,即便在同一时间、同一地点可以正常使用微信和观看视频,也不意味核酸系统的网络环境就一定没有问题。所以,不能简单认为四川通信管理局的声明就是完全否定东软集团的说法,更准确的说这仅仅是确认了事发时成都地区的公共网络环境正常,还需要更多信息才能判断核酸检测应用相关的私域网络环境当时是否发生故障。


除了网络故障的疑点,业内人士推断另一种较大的可能性是东软集团开发的核酸检测信息系统存在一定的设计缺陷,该系统与后台数据库交互时,未采用限流、缓存或数据库分库分表机制,造成系统无法处理请求量激增的场景,从而导致响应延迟、卡顿甚至系统崩溃。


从成都的案例分析,我们首先可以获得几点直接印象:

(一) IT系统一旦发生严重故障,造成的影响巨大;

(二) IT系统的复杂度很高,涉及的各方面供应商很多,排查故障的难度很大,且各方之间极易推诿和扯皮;

(三) IT系统的后期运营成本非常高,仅“天府健康通”一个系统的一年期基础运维费用就超过1700万。


IT系统故障造成的影响大这一点较为容易理解,但系统运行为何涉及如此多的供应商,为何后期运营成本会这么高呢?这些问题的背后,蕴藏着企业IT系统运营的三个主要特点。


一、高可用性

当下我们可以随时随地进行百度搜索、微信聊天、滴滴打车、网上订酒店和机票等操作,这是网络化业务具有高连续性的表现,前端业务需要实现每周7天、每天24小时能够产生实时数据,并可以进行实时交易,那么支撑这些业务的后台IT系统就需要7x24不间断运行,数据中心必须能时时响应各种访问需求,且需要具备极高的可持续性运行能力。


时间转到今年3月14日和5月16日,由于大量用户反映招商证券交易系统疑似宕机,严重影响证券交易,证监会于7月12日对招商证券信息技术管理工作进行公开批评和处罚,对三位高管出具警示函。为此,招商证券董事长直接兼任了首席信息官来强化IT系统的安全性和稳定性工作。


从这个事例我们可以看出,企业IT系统稳定运行对于企业经营发展的关键性作用。同理,银行网点、机票酒店预定网站、电信营业厅、高速收费站、医院门诊部、汽车加油站、连锁门店的IT系统如果发生中断或严重卡顿,自身也会遭受巨大的经济损失和商誉损失,并造成引发巨大社会影响的严重后果。


可以说,业务连续性是建立在系统的高可用性基础上的。IT系统和设备的可持续工作能力,通常用平均故障间隔时间(MTBF = Mean Time Between Failures)来衡量。当一台设备的可用性指标定义为99.99%时,意味着它每年的停机时间不能超过52.6分钟。


企业级IT基础设施大多是高精密设备,并且绝大部分是7X24小时不间断运转。这些设施长年累月承担高负荷工作,且不能像家用电器那样随意开关和重启。以企业级服务器为例,很多设备甚至全天候连续工作长达10年以上。


相比而言,如果汽车也像服务器这样连续不停运转,将会是怎样的场景?作为汽车的心脏,发动机的冷却系统以及油液润滑系统是*容易在长时间连续运行情况下发生问题的,它们的极限连续运作时长一般都不超过1000个小时或者1.5万公里,也是就说,一台汽车在连续不停行驶42天后,发动机基本就报废了。如果按照轮胎的极限平均值测算,一台汽车连续行驶200个小时后,轮胎也就不可用了。对比来看,企业级服务器的可用性要明显高得多。


因此,企业IT系统运营须具备高可用性,才能保障系统平稳运行,减少各类损失,维护自身利益。


二、高复杂度

东软集团在成都核酸检测系统崩溃事件中的声明反映出:企业IT系统是高度复杂的互操作环境,各种软硬件元素呈集成化运行。


和汽车、手机这种高度集成化的产品不同,企业客户要想搭建一套信息化系统,首先要从市场中购买或开发各种类型的硬件和软件产品,如同购买各类“建筑材料”。以数据中心为例,需要有提供算力的服务器、提供数据存放和数据管理的存储器、提供数据传输的网络设备、保障安全访问的安全设备,提供电力和温湿度保障的动力环境设备。另外在软件层面,要有基础的操作系统、管理数据的数据库、衔接操作系统和应用的中间件,*后是各类上层应用软件(如核酸检测软件)。


不管是联想倡导的“端(智能终端设备/物联网)—边(边缘计算)—云(云计算)—网(5G和高速光纤网络)—智(行业智能)”架构,还是贤牛主张的“云—场—终”三端运营场景,都表明了企业IT系统是各技术要素紧密融合的环境,个人电脑、智能物联终端采集和产生海量数据以及计算结果,都将通过网络和云端的数据中心及其所集聚的大规模算力和存储能力进行协同,从而支持各行业诸如智能办公、智慧医疗、智慧门店、智能仓储、智能制造、智慧交通等信息化/数智化场景。


当前,IT系统涉及的技术领域和产品众多,尚没有任何一个单一厂商,可以一站式提供客户业务系统所需要的全部IT元素。因此,企业客户只得采用各厂商提供的“建筑材料”,而这些“建筑材料”也必须在统一的规划设计和运营管理之下,才能实现良好的兼容性和高性能,整合成为企业业务所需的信息化、网络化和智能化的IT系统。这个整合的工作就是系统集成(System Integration)。


图片

IT产品的主要类型和部分品牌  ▲ 

        注:初级层面的系统集成是IT基础架构集成,将通用型软件、硬件产品组合起来,技术含量相对较低,集成商常被称为IT业的搬运工和装配工。


         中级层面的系统集成是应用系统集成,企业内各种IT系统是在不同时期以项目方式搭建,各应用原本相互独立,但已愈发需要打通和协作。


         例如,患者在医院门诊时会涉及到医院挂号缴费相关的HIS系统、电子病历系统EMR、生化检测LIS系统和医学影像PACS系统等。如果这些系统都互相独立,无论从医院运作效率还是患者就医体验都会非常不好。


         高级层面的系统集成是业务数据集成。为防止企业内部形成数据孤岛,造成严重的管理复杂度和安全风险,需将不同业务系统中的数据打通并有效整合,实现数据管理和应用的一体化,支持可视化分析和综合报表,管理者则通过商业智能定位问题和分析问题,可以形成科学的决策。


系统集成工作完成后,企业IT系统将进入长周期的使用和运营阶段,这个长期持续的过程中所需要的IT系统综合运营保障能力往往是绝大多数企业自身不具备的,也往往是前期参与系统建设的绝大多数系统集成商所不具备的。上述提到的成都核酸检测系统崩溃事件来看,东软集团如今已跻身国内*大的系统集成商和应用开发商之列,但他们仍然只能负责到核酸检测应用软件部分的维护,而对于系统底层的IT硬件设施,包括计算、存储和网络环境,都不在他们的服务支撑范围之内。


三、大运维量

企业级IT系统和我们熟悉的家电、汽车产品*大的不同在于:后者是傻瓜型单体设备和高集成度系统,用户往往只需要看看说明书或简单培训即可上手使用,在整个使用过程中除非发生故障,几乎不需要运营维护。但是企业IT系统由于是大量IT软硬件产品/子系统的松耦合集成,因此在部署和使用的过程中,必须持续投入大量的运营维护工作


正如我们**项特点中提到,企业IT运营的一项*基本工作是保障系统的高可用性,正因如此,在IT运维领域,定义了非常明确的服务水平协议(Service Level Agreement),规定电话报修响应时效、远程诊断时效、现场服务时效、恢复业务时效和解决故障时效。为确保高可用性,快速发现故障、快速定位故障以及快速恢复系统的能力至为关键,必须做好人员技能的规划、备品备件的储备以及运营流程的优化。除了系统设计完善、产品质量过关以外,系统的可用性也与IT基础设施的使用和维护是否得当有很大关系,因此需要进行大量高速、有效的运维工作。


运维工作量大的另一个重要原因是企业IT系统处于高度动态的环境中,随着业务流程和业务场景的不断变化,系统也要经常进行相应调整。同时,新业务的上线需要做好新系统与原有系统之间的系统适配和数据部署,由于各部分之间的适配与兼容问题大量存在,系统的性能需要进行不断地优化。


此外,由于数据在不断产生,企业必须做好数据管理,对重要业务数据进行及时备份和归档,对垃圾数据也要进行及时清理,以此减少对存储资源的浪费。在高度动态的环境中,企业人员需要应对各种突发状况,为防灾防损做好应对措施;需要考虑安全性和合规性,防止外部攻击和信息泄露、防止未经授权的人接入重要的业务系统和数据;企业的各类人员变动,需要经常维护系统的密码和使用者权限等等情况,都需要大量的运维工作。


综上,高可用性、高复杂度以及大运维量是当下企业IT系统的三大基本特点,通过对系统特点进行学习和了解,有助于进一步推动企业信息化高质量发展,有效保障企业利益。下一篇,我们将聚焦企业IT运营管理工作中遇到的痛点和难点,进行深入思考。



上一篇:“让IT更保险”深度解读系列之一:重新认识IT

下一篇:“让IT更保险”深度解读系列之三:企业IT运营的主要痛点

推荐新闻