什么是智能运维?
智能运维通过大数据分析、机器学习和人工智能实现运维中的数据自动实时检测和处理问题。智能运维通过将所有类型的数据集中在一个平台,消除了 IT 中的数据孤岛。然后使用收集到的海量数据来执行机器学习方法,以开发能够进行响应性增强和修正的洞察力。使用智能运维可以在问题产生重大后果之前检测和解决问题。
传统运维和智能运维的区别:
1、数据采集
运维人员在使用传统运维工具进行故障诊断时,要同时从多种监控工具中得到不同维度的运维指标,然后再把这些数据在大脑里面相互关联并根据以往运维经验进行关联分析,以期能找到故障的真正原因。
智能运维的第一步就是通过大数据技术自动化从各种来源收集数据,包括日志事件、度量、跟踪、更改和警报。之后根据需要转换和聚合数据,有效备份和保留数据,并且保证数据质量足以支持数据分析。
2、诊断速度
传统运维工具由于体系架构比较陈旧、采集数据总量和维度又都相对有限,无法应用当下最先进的机器学习或者人工智能算法来快速诊断系统故障。
智能运维通过运行复杂数学运算的算法能够分析大量数据、了解数据、发现趋势、异常和重大事件、做出预测并提供上下文。并且使用数据缩减原理来减少事件噪音,比传统运维更快地检测和处理问题。
3、运维成本
传统运维需要用到许多监测工具和运维工具,这就需要企业聘用不同领域的运维人员来进行IT 支撑保障。并且由于传统运维的效率、速度问题,企业也需要更多的运维人员来维护日益庞大的系统。
智能运维可以将各种监测工具统一管理,智能运维平台还可以采集海量多维度数据,企业甚至是不需要其他监测工具。而且智能运维的效率要比传统运维高,通过数据处理,也减少了大量的告警,因此运维部门对人力的需求减少,从而减少了运维成本。
原文:https://www.aiops.com/blog/practice/274.html