今天是2019年11月20日 星期三,欢迎光临本站 

智能运维

     

  背景说明  


 随着数字化转型的推进,IT部门会发现业务系统的数量和复杂度与日俱增,系统间的调用关系难以理顺。而微服务和容器技术在创新业务中的大量应用,更让这种状况雪上加霜。与此同时,业务端对IT运维团队提出了更高的敏捷响应、更少故障发现和故障修复时间等管理要求,导致传统运维工具、日志分析工具和ITOM解决方案都力不从心。

安全运行的挑战我司对技术系统的安全稳定运行要求高,而目前业务功能一般涉及多个系统与应用,所采用的事后处置为主的运维模式,存在异常定位困难、处理效率低等缺陷,这种被动异常响应模式已经不能满足异常快速定位和处理的需求。


人力紧缺的挑战目前的技术系统运维由于工作量大、工作内容重复且枯燥,运维岗位特别是值班岗位的吸引力逐渐降低。运维需求与人力资源紧缺的矛盾,已经成为技术系统发展中无法避免的矛盾。

     

远程运维的挑战从单数据中心向多数据中心发展过程中,传统的现场运维方式也因数据中心地点偏僻、现场巡检工作繁琐重复等困难而导致运维成本和压力增大,如何实现远程运维来解决数据中心发展的问题。

运维大数据平台

01
 运维大数据:
运维大数据平台用于对各种运维数据进行采集、处理、存储、展示的统一平台。运维数据包含监控据、日志数据、配置信息等,其详细组成如下表所示:


运维数据种类
具体数据
监控数据
设备监控数据
系统监控数据
数据库监控数据
中间件监控数据
应用监控数据
安全监控数据
动环监控数据
环境监控数据
统一告警事件
日志
系统日志
应用日志
网络日志
设备日志
安全日志
配置信息
CMDB
变更管理


▲ 运维大数据组成
大数据平台所存储的数据,按照所更新的频率可分为静态数据和动态数据。静态数据主要包含CMDB数据、变更管理数据、流程管理数据、平台配置信息数据等。此类数据一般情况下在一定时间范围内是固定不变,主要是为动态数据分析提供基础的配置信息。对此类数据的查询操作多,增删改操作较少。当智能运维平台启动时,部分静态数据可直接加载到内存数据库中,因此静态数据一般保存在结构化数据库中或者Hive平台。动态数据主要包含各类监控指标数据、日志数据以及第三方扩展应用所产生的数据。此类数据一般是实时生成并被获取,并作为基础数据,需要通过数据清洗转换成可使用的样本数据。动态数据一般按不同的使用场景保存在不同大数据组件中,如用于分析的数据保存在Hive数据库,用于检索的日志数据可保存在ES(即ElasticSearch)中。


02
运维大数据平台
参考大数据平台的架构,运维大数据平台由数据采集层、数据存储层、数据分析建模层、展示层等组成,其逻辑架构如下图所示。




数据采集处理层是整个大数据平台的数据来源,所接入的运维数据类型包括日志数据、性能指标数据、网络抓包数据、用户行为数据、告警数据、配置管理数据、运维流程类数据等,其格式包括系统中的结构化数据、半/非结构化数据、以及实时流数据。采集方式可分为代理采集和无代理采集,其中代理采集一般为拉的方式,在采集端部署agent来采集,无代理采集一般利用logstash、flume等组件直接获取运维数据。在该层也会对数据做预处理,使其能满足定义的格式,用以在数据存储层落地。数据存储层是用于落地运维数据,可根据不同的数据类型、数据消费和使用场景,选择不同的数据存储方式。
13075515566
浏览手机站
微信二维码