实战 | 安信证券智能运维一体化平台建设之路

内容分享1周前发布
0 1 0

文 / 安信证券股份有限公司系统运维部行政负责人 梁德汉

安信证券股份有限公司系统运维部 李晓璐

证券行业的特殊性决定了其IT运维需要具备高水平的业务连续性、系统稳定性和安全性。不过,当前运维工作面临多重挑战,例如既有传统应用也有互联网应用、自研系统与外购系统异构并存、稳态与敏态双态IT运维并行等。为了应对这些挑战,安信证券建立了智能运维一体化平台(以下简称“平台”),通过集成监控、自动化、智能分析、混沌工程、智能感知等能力,打造了“监、管、控、营、析”多位一体的平台体系架构。该平台以运维场景为导向,以应用为中心,构建了智能化运维服务。平台加持异常检测、机器学习、软件机器人、低代码等技术,通过实现统一采集、分析、展现、上下文关联等能力,全面管理和优化IT系统,提高运维效率、降低运维成本、提升用户体验并促进业务创新。

总体框架

平台按照“统一规划、分步实现、步步见效”的建设思路推进,总体架构如图所示。按此架构进行建设和持续优化演进,分为三个阶段。第一阶段(平台建设):以“监、管、控、营、析”工具平台建设为主,打造了一体化的运维工具平台体系架构。第二阶段(能力建设):侧重于运维能力建设,探索场景化、服务化的落地,通过低代码技术打造了运维开发能力。第三阶段(场景建设):从“工具平台建设为主”到“运维能力建设为主”,再演进为“场景和数字驱动”,夯实运维数字化管理,探索运维数字化的实践之路。

实战 | 安信证券智能运维一体化平台建设之路

图 安信证券智能运维一体化平台总体架构

“监、管、控、营、析”一体化能力建设

1.“监”:统一监控能力。构建统一监控能力,实现了业务系统的可观测性,采用低延时技术方案实现了从基础资源到中间件、应用、业务的全方位监控。一体化平台监控具备灵活、高效、标准化的特点,具有表现为:一是可观测性,统一监控打通了日志、架构可视化、CMDB等系统能力,并提供了操作系统、中间件、业务、链路追踪等性能视图;通过告警快速下钻到告警对象基于上下文关联的性能、拓扑、日志数据等,协助系统负责人全面、准确地获取和分析系统的状态和行为,定位、分析及解决生产故障。二是监控标准化,根据CMDB的配置确定监控纳管范围,丰富告警对象的业务系统等信息;监控代理自动注册并关联监控模板生成标准的监控指标和策略。三是可灵活扩展性,采用了模块化的设计思想,开放标准集成接口,具备多系统集成和应用适配的能力,适应公司的业务多样性和变化性,快速支持新业务的监控需求。

2.“监”:智能感知能力。证券业务感知是从用户角度探测、收集和重现用户行为,利用大数据技术和人工智能技术对现有状态进行感知觉察,对过去行为进行感知理解,对未来状态进行感知预测的过程。通过7×24小时模仿用户行为对交易系统进行操作,全面覆盖接口及UI自动化用例,并模拟证券业务执行策略,从而感知整个系统的可用性和健壮性。这种方法充分保障了系统的可用性和业务连续性,同时提高了用户的使用体验。通过对交易系统关键数据(市值、盈亏、基金净值等)的准确性校验,深度理解业务,主动识别软件界面显示的数据异常,实现异常检测告警。

3.“管”:CMDB配置管理能力。CMDB落地以应用为中心的配置管理核心模型,串联“系统—子系统—应用—集群—操作系统—虚拟机/物理机—基础设施”的关键链路,统一各运维工具底层数据模型,作为公司内部统一的权威数据源,为智能运维涉及的多个领域运维工具提供准确完善的消费接口。基于CMDB的资源管理能力,可以进行监控覆盖,并完成纳管率统计分析,推动生产主机百分百被监控纳管。同时,也可通过CMDB查询到各类资源告警的负责人及业务归属,保证告警有效性。此外,CMDB还可以与监控指标和资源所属业务信息结合,进行更深层次的告警汇聚和系统画像分析,进一步提高监控效率和精度。

4.“管”:运维场景化能力。引入低代码技术,以拖拉拽配置的方式实现运维场景的快速构建能力。一是推进实现数字化运维,提升运维工作效率。基于低代码技术实现的运维场景层应用,目前已涵盖了券商典型的运维工作场景,包括灾备演练管理、重大版本升级管理、运维值班管理、全网测试等。通过“线下”与“线上”的协作增强,实现了信息实时同步,支持多人协同编辑、执行进度实时更新,同时自动化完成数据统计分析,工作进度和完成效果一目了然,可提高运维及沟通效率。二是建设低门槛的运维场景快速交付能力。为满足持续优化从而提高开发效率的需求,基于低代码技术持续提炼各场景的通用能力,评估增加独立业务组件、可配置操作,为后续其他场景做铺垫。安信证券目前建设的低代码能力已演变为具备券商业务特点的低代码平台,让运维人员能够通过可视化方式实现运维场景的快速构建,为后续建设和增强运维场景体系做出了有益探索。

5.“控”:自动化能力。构建统一自动化能力。一是应用标准化,建立了标准化应用管理体系,统一了应用的命名规则、用户、目录、脚本和命令,对各类中间件、数据库以及外购应用进行了标准化改造,实现了一键式应用搭建、管理和部署,实现了规模化运维。二是多平台支持,自动化引擎是自动化运维的核心,实现了对Windows、Linux、容器服务、配置中心、数据库、网络设备等资源的自动化运维,建设标准的原子组件库,支持常用的运维管理操作。三是流程编排能力,是统一自动化的核心价值,能够应对各类复杂场景的运维工作,包括核心交易系统灾备切换、开闭式检查、日常应急以及故障自愈等。四是集成RPA能力,RPA能够实现UI界面操作的自动化,有助于扩展自动化能力的应用范围。将RPA与自动化技术相结合,可以自动完成复杂的业务处理过程,并且为不同业务场景提供定制化的解决方案。

6.“控”:混沌工程能力。实现“通过失败来避免失败”。一是原子故障注入能力,实现了基础资源故障、网络资源故障和应用服务类故障。二是演练场景编排能力,基于故障原子库,可灵活地编排和组合任意原子故障和参数,可按照串行或并行执行等方式设定执行逻辑。三是演练安全防护能力,支持演练过程中的手工终止、超时终止和阈值终止,确保了执行过程的爆炸半径安全可控。四是演练活动观测能力,与监控能力进行集成对接,获取演练中的业务稳态指标,实现演练执行过程的自动化分析和可视化展示。五是演练结果分析能力,构建系统架构韧性分析、监控告警能力分析和应急处置能力分析报表。根据系统架构和业务特性进行场景设计,并应用在架构、开发、测试、运维、业务等多个层面,有效地检验了系统架构的韧性,提前发现系统风险点,保障了系统稳定性。

7.“营”:架构可视化能力。结合CMDB和监控,构建了架构可视化能力。一是基于CMDB的自动绘图,对CMDB中的系统配置数据进行可视化呈现,实现基于应用拓扑的自动绘图能力,当CMDB中维护好相应的系统核心模型配置后,能在架构可视化系统自动生成相关系统拓扑,并实时推送数据更新提示,保证架构图的实时准确。二是监控数据关联,同时将监控性能指标数据及告警实时呈目前架构图中,协助系统负责人结合架构图中应用上下游,快速评估关联影响及辅助定位系统根因,提升运维效率。

8.“营”:统一通知服务能力。通知功能是大部分系统都需要具备的能力,如果发生告警风暴,会造成通知风暴,需要对通知风暴进行策略控制和处理。同时,通知策略单一,是多数系统共同的痛点。例如,告警通过短信发送,如果短信未被及时查看并作出响应,可能延误处理时机。因此,需要增加复合通知策略。安信证券将通知管理能力独立出来,实现通知功能的服务化能力构建,作为通用能力供平台内其他功能调用。实现通知的统一管理,提供公共的通知服务。该服务还可以基于自定义的通知发送策略,提高通知的准确性和有效性。同时,提供自助的排班机制,管理被通知的组织和人员,让通知传达更加精准。

9.“析”:智能运维分析能力。通过构建覆盖日志、监控、告警、业务分析的智能运维分析能力,为企业提供智能化的监控、预警、问题根因定位等服务,成功解决了传统运维无法提供未知告警、异常检测、告警多、无法聚焦的问题,主要体现为:一是异常检测,结合智能算法对日志进行实时分析,自动识别日志的类似性,将类似度高的数据聚合在一起,提取共同的日志模式,快速掌握日志全貌,将海量日志聚类到肉眼可读的数量,并且智能识别日志发生的规律,深入分析异常。二是智能告警,采用关联分析算法FPGrowth进行数据建模,对海量告警事件进行降噪和关联分析,辅助根因定位并可沉淀故障处理的知识,从而提升运维效率,降低运维成本。一体化平台还以机器学习算法为驱动,协助系统负责人减少告警数量,追查根因,并进一步提高运维效率和管理水平。

典型场景

1.故障定位与根因分析场景。当系统出现故障时,系统负责人第一通过统一监控收到硬件、系统、中间件、数据库和应用相关的性能和报错的实时及历史信息。此外,统一监控还可以自动关联到告警发生前后的相关日志信息,包括报错和应用运行记录的相关线索,并通过日志速析的方式进行日志智能化排障。系统会自动将类似度高的数据聚合在一起,提取共同的日志模式,协助系统负责人快速掌握日志全貌。结合CMDB的相关数据和应用的架构拓扑,系统负责人可以快速定位其系统及业务的影响范围、故障根因等。此外,通过运维大数据存储的系统运行记录和业务相关记录,结合异常检测的相关算法,能够提前预知一些类型事件的发生。同时,系统对告警进行了关联分析,并采用了关联分析算法进行有效排除,找到关联告警。最终,将上述所有的步骤固化成为“场景化运维”能力,作为“故障定位与根因分析”的一个通用分析过程。

2.运维开闭市巡检场景。针对券商开市前的准备和检查,安信证券通过智能感知能力,在交易日开盘前,对各交易品种进行委托,检测券商提交委托到交易所的通道是否正常,并同时检测每个站点是否可以正常委托、查询及资金持仓数据是否正常加载。系统分析执行记录,找出潜在安全隐患。同时,利用统一自动化能力实现开市前各类作业流程的自动化操作。基于低代码构建的运维值班管理应用,可多端操作、记录巡检结果,运维工程师通过可视化的设计器就可完成表单的设计和步骤的编排,有效支撑了开闭市巡检的各项检查信息上报、汇总、总结工作。另外,在周末闭市期间,进行定期的混沌工程演练。以优化负载均衡策略为例,通过关注生产环境配置、优化算法、实时监控节点状态和建立监控体系等措施,可以提高负载均衡策略的效率和可靠性,保障系统的高可用性和高性能。这些措施有效地降低了因程序运行状态、外部依赖、系统参数配置等问题造成的系统稳定性缺陷的概率。

总结与展望

智能运维一体化平台是安信证券数字化转型的关键支撑平台,也是运维管理的重大工具。该平台通过打造IT运维运营体系,落地实施基于用户体验的智能运维一体化能力,实现传统运维向数智化运维的转变。此外,建立适用于当下金融科技发展模式的数字化产品运维与运营体系和治理结构,实现价值驱动管理、快速响应变化、内建质量与持续改善的目标,全面提升安信证券创新能力。同时,平台集成了多种优秀工具及AI服务能力,通过运维赋能业务,实现“融合—灵活—一站式”的服务模式。

通过平台化能力,安信证券实现了运维自动化、管理简单化、代码高效化,缩短开发周期、释放运维人力、降低运维风险,最终实现运维智能化,大幅提升运维效率,提升风险事前评估和预防的准确性。该平台对证券行业运维领域的数字化转型具有必定的借鉴意义。

(栏目编辑:郑岩、魏亚楠)

© 版权声明

相关文章

1 条评论

您必须登录才能参与评论!
立即登录
  • 头像
    毛茸茸的拿手浩戏 投稿者

    收藏了,感谢分享

    无记录