您当前的位置:首页 > 互联网百科 > 大数据

一文看懂博睿数据AIOps场景、算法和能力

时间:2022-05-23 10:56:33  来源:  作者:博睿数据

数字化浪潮之下,运维能力也逐渐成为现代企业的竞争力之一。

在过去的数十年间,运维发展经历了数个阶段。从早期的手工运维到标准化运维、自动化运维,再到DevOps、AIOps,追溯整个历程不难发现,运维方式随着技术的不断发展,逐渐迈向智能化。

2016年,Gartner面向运维提供了一个新概念——“AIOps”,中文释义智能运维。即其是以AI等手段为核心,为运维提供更为智能和数字化的支撑。也就是说,把运维从“人”的要素抽离出来,更多的放到“数据”一侧。其中包含的场景更加丰富,包括异常告警、告警收敛、故障分析、趋势预测、故障画像等等。

所谓的AIOps,简单理解就是基于自动化运维,将AI和运维很好的结合起来。

AIOps的落地在多方面直击传统运维的痛点,AI算法承担起分析海量运维数据的重任,能够自动、准确地发现和定位问题,从决策层面提高运营效率,为企业运营和运维工作在成本、质量和效率方面的优化提供了重要支持。

市场方面,全球IT研究机构Gartner预测:“到2022年,将有40% 的大型企业部署AIOps(智能运维)平台。”

可见,AIOps 在企业中的作用正在进一步放大。但事实上,很多企业对于AIOps 能解决什么问题并不清晰,今天我们就以博睿数据的AIOps 的三大场景和算法说起。

博睿数据的AIOps 实践

作为领先的APM应用性能管理厂商,在AIOps实践方面,多年来博睿数据积极拥抱人工智能、机器学习等新技术变革的浪潮,并基于AI和机器学习技术,自主研发了“数据接入、处理、存储与分析技术”核心技术体系,全面布局智能基线、异常检测、智能告警、关联分析、根因分析等丰富且广泛的智能运维功能,并将AIOps能力融入端到端全栈监控产品线,可为传统企业提供强大的数据处理、存储和分析的软件工具,帮助客户整合各类IT运维监控数据,实现数据的统一存储和关联分析,打破数据孤岛,构建统一的IT运维管理平台,让企业的IT运维更加智能化、自动化。

在此基础上,博睿数据还依托完整的IT运维监控能力,利用大数据和机器学习技术持续构建先进的智能运维监控产品,2021年先后推出了搭载了AI能力的新一代APM产品Server7.0和新版的统一智能运维平台Dataview,不断落地智能异常检测、根因分析、故障预测等场景。基于人工智能的能力实现运维监控场景的信息整合、特征关联和业务洞察,帮助企业确保数字化业务平稳运行,并保障良好的数字化体验。

博睿数据AIOps 场景与算法

目前,博睿数据在AIOps 技术方面主要落地了三大场景。即智能基线预测、异常检测及告警收敛。

首先来看智能基线预测。

一文看懂博睿数据AIOps场景、算法和能力

 

智能基线预测指的是基于历史数据,利用智能算法进行深度学习,对未来一段时间内每个时间点的数值进行精准预测,将预测值作为基线来监控和告警。

一文看懂博睿数据AIOps场景、算法和能力

 

如上图所示,对未来 24 小时的数据预测结果用虚线表示, 灰色区域代表正常数据的波动范围。 如果实际值超出灰色区域就代表出现了异常。

IT运维人员在对业务服务数据进行问题检测时,通常会使用动态基线来对实时数据进行检验和衡量。在实时数据与动态基线数据两条曲线的拟合度相似的情况下,则该业务是较为健康的;若动态基线与实时数据离散程度较大,则当前业务存在问题。

目前,博睿数据在智能基线预测方面应用的算法包含实时预测算法、离线算法预测、流式算法预测三种。

一文看懂博睿数据AIOps场景、算法和能力

 

再来看下异常检测。

一文看懂博睿数据AIOps场景、算法和能力

 

异常检测指的是通过历史数据的机器学习来动态预测数据的趋势,无须手动设置阈值,可以根据指标的数据特征自动识别异常。

一文看懂博睿数据AIOps场景、算法和能力

 

如图所示,灰色区域代表了正常数据的波动范围, 红色数据点即为异常数据点。

IT运维人员在对应用服务运行状态的检测过程中,通过AIOps的异常检测算法,可以判断图中红色区域的数据即为异常数据,深灰色条状区域为可容忍的业务波动范围。同时,运维人员也可以通过数据集特征数据,对当前时段内数据进行事件聚合,全面分析当前事件对应用的全部影响波动范围。

目前,博睿数据在异常检测方面应用的算法包括静态基线(绝对静态基线 +差分静态基线) 、智能基线+NSigma判别等。

最后来看下告警收敛。

一文看懂博睿数据AIOps场景、算法和能力

 

所谓告警收敛即基于多条有关联的告警信息,合并为一条故障,对当前处于故障状态的的警报可能造成的影响进行预测判断,从而实现故障的提前预警,减少冗余告警事件对运维工作的干扰。

目前,博睿数据在告警收敛方面应用及规划使用的的算法包括事件熵、顶点熵、时域关联、文本相似度关联、拓扑关联、NMF+Kmeans等。

一文看懂博睿数据AIOps场景、算法和能力

 

为AIOps行业发展添砖加瓦

在现有博睿数据 AIOps 场景、算法、能力的基础上进一步延展和丰富,打磨日志异常检测、根因分析、影响分析、自然语言处理、diy算法等能力, 用 AI 算法赋能日志管理、一体化运维、应急自愈快恢和算法实验室等业务场景,助力企业加快数字化转型进程。

一文看懂博睿数据AIOps场景、算法和能力

 

随着企业业务规模扩大,云原生与微服务的兴起,企业IT架构复杂性呈现指数级增长。而传统的IT运维手段面临故障发生后,查找故障原因困难,故障平均修复时间周期长,已无法满足新的运维要求。因此运用人工智能赋能运维,去取代缓慢易错的人力决策,快速给出运维决策建议,降低问题的影响并提前预警问题就成为了必然。AIOps作为目前运维发展的最高阶目标,未来将会赋能运维带给用户全新的体验。

但需要注意的是,当前智能运维的很多产品和项目在企业侧落地效果并不理想,究其原因可归类为三点:一是数据采集与AI平台割裂,多源数据之间的关联关系缺失导致AI平台缺乏高质量的数据,进而导致模型训练效果不佳;二是数据采集以metric和log为主,导致应用场景较窄且存在数据孤岛问题;三是AI平台能力尚有提升空间。当前落地的场景多以异常检测与智能告警为主,未来需要进一步提升根因分析与故障预测的能力。

一文看懂博睿数据AIOps场景、算法和能力

 

因此,未来企业首先要建设一体化监控运维平台,一体化是智能化的基础。基于一体化监控运维平台采集的高质量的可观测数据数据以及数据之间的关联关系,进一步将AIOps的能力落地到一体化监控运维平台中,从而实现问题精准定位与见解能力。

此外,在实际应用中,依据信通院的相关调查,其受访企业中只有不足20%的企业具有智能化监控和运维决策能力,超过70%的企业在应用系统出现故障的10分钟内一筹莫展。

各行业的数字化转型正在改变这一现状,不仅互联网企业,更多传统企业的数字化转型为智能运维开拓了更广阔的市场,智能运维有着巨大的发展空间,这也是博睿数据等行业领先企业发力的大好时机。

提升创新能力,推广智能运维不仅是相关服务商自身发展的要求,也是提升我国企业应用管理和运维水平的使命。

中国企业数字化转型加速,无论是前端的应用服务迭代更新,还是后端IT运维架构的复杂度提升,都在加速培育智能运维的成长。​​​​



Tags:AIOps   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
一文看懂博睿数据AIOps场景、算法和能力
数字化浪潮之下,运维能力也逐渐成为现代企业的竞争力之一。在过去的数十年间,运维发展经历了数个阶段。从早期的手工运维到标准化运维、自动化运维,再到DevOps、AIOps,追溯整个...【详细内容】
2022-05-23  Search: AIOps  点击:(256)  评论:(0)  加入收藏
DataOps、MLOps和AIOps,你要的是哪个Ops?
两年前,由于我领导的运维团队效率低下,我“赢得”了耻辱的勋章。我具有数据科学和机器学习的背景,因此,我们想当然的从工程团队的同事那里学来了 DevOps。...【详细内容】
2021-02-05  Search: AIOps  点击:(448)  评论:(0)  加入收藏
▌简易百科推荐
大数据杀熟何时告别“人人喊打却无可奈何”?
2月7日郑州飞往珠海的航班,不同手机、不同账号搜索该航班显示出不同价格。图源网络有网友近日分享在某平台的购票经历,引发社会广泛关注——用3个账号买同一航班同...【详细内容】
2024-01-30    中国青年网  Tags:大数据杀熟   点击:(34)  评论:(0)  加入收藏
简易百科:到底什么是大数据?
随着互联网的快速发展,大数据已经成为了当今社会最热门的话题之一。那么,到底什么是大数据呢?首先,我们需要明确大数据的定义。大数据是指数据量极大、类型繁多、处理难度高的数...【详细内容】
2024-01-30    简易百科  Tags:大数据   点击:(41)  评论:(0)  加入收藏
数据采集新篇章:AI与大模型的融合应用
开篇在AIGC(人工智能与通用计算)应用中,大型语言模型(LLM)占据着举足轻重的地位。这些模型,如GPT和BERT系列,通过处理和分析庞大的数据集,已经极大地推动了自然语言理解和生成的边界...【详细内容】
2024-01-17  崔皓  51CTO  Tags:数据采集   点击:(57)  评论:(0)  加入收藏
挑战 Spark 和 Flink?大数据技术栈的突围和战争
十年的轮回,正如大数据的发展一般,它既是一个轮回的结束,也是崭新的起点。大数据在过去的二十年中蓬勃发展,从无到有,崛起为最具爆炸性的技术领域之一,逐渐演变成为每个企业不可或...【详细内容】
2024-01-17  InfoQ    Tags:大数据   点击:(41)  评论:(0)  加入收藏
分布式存储系统在大数据处理中扮演着怎样的角色?
如果存储节点本身可以定制,则通常会让其支持部分计算能力,以利用数据的亲和性,将部分计算下推到相关的存储节点上。如果存储是云上的 S3 等对象存储,无法定制,则通常会将数据在计...【详细内容】
2023-12-19  木鸟杂记  微信公众号  Tags:大数据   点击:(49)  评论:(0)  加入收藏
大数据如何实时拯救生命:车联网的数据分析有助预防交通事故
译者 | 李睿审校 | 重楼车联网(IoV)是汽车行业与物联网相结合的产物。预计车联网数据规模将越来越大,尤其是当电动汽车成为汽车市场新的增长引擎。问题是:用户的数据平台准备...【详细内容】
2023-12-19    51CTO  Tags:大数据   点击:(43)  评论:(0)  加入收藏
利用生成对抗网络进行匿名化数据处理
在互联网时代,数据日益成为人们的生产资料。然而,在某些情况下,我们需要分享数据,但又需要保护个人隐私。这时,匿名化技术就显得尤为重要。本文将介绍利用生成对抗网络进行匿名化...【详细内容】
2023-12-18  技巧达人小影    Tags:数据处理   点击:(57)  评论:(0)  加入收藏
盘点那些常见的数据中心类型,你知道几个?
在数字化潮流的浪潮下,数据中心如同企业的神经系统,关系到业务的稳健运转。而在这个巨大的网络中,各种数据中心类型如雨后春笋般崭露头角。从企业级的个性至云数据中心的虚拟化...【详细内容】
2023-12-07  数据中心之家  微信公众号  Tags:数据中心   点击:(71)  评论:(0)  加入收藏
数据中心的七个关键特征
随着信息技术的不断演进,数据中心的可靠性、可扩展性、高效性、安全性、灵活性、管理性和可持续性成为业界探讨的焦点。下面让我们一同深入剖析这些关键特征,了解它们是如何影...【详细内容】
2023-12-06  数据中心之家  微信公众号  Tags:数据   点击:(65)  评论:(0)  加入收藏
什么是数据解析?将数据转化为更好的决策
什么是数据解析?数据解析是一门专注于从数据中获取洞察力的学科。它包含数据分析(data analysis)和管理的流程、工具和技术,包括数据的收集、组织和存储。数据解析的主要目的是...【详细内容】
2023-12-06  计算机世界    Tags:数据解析   点击:(68)  评论:(0)  加入收藏
站内最新
站内热门
站内头条