2022年从传统运维到智能运维正确的领跑姿势是什么?发布时间:2022-05-10 12:03:54 来源:优游平台登录 作者:优游官方app

  中国建成全球最大5G网络,5G基站达70万个,占全球比重近七成,连接超过1.8亿个终端。

  MIT(麻省理工学院)与合作团队仅用19个类脑神经元就实现了控制自动驾驶汽车,而常规的深度神经网络需要数百万个神经元。

  中国“祝融”号和美国“毅力”号火星车分别在火星成功着陆,它们将寻找火星上可能存在过的生命迹象。

  2020年全球电动汽车销量较2019年上涨39%,达到310万辆。苹果、百度、小米等互联网科技公司纷纷加入造车新势力,车辆自动驾驶由单车智能迈向车路协同。

  迄今为止,SpaceX已为Starlink发射了1000多颗卫星,预计到2021年年底,Starlink的服务将会覆盖全球大多数客户,并有望在2022年完全覆盖全球。

  上面这些事件只是近期大大小小科技事件中很小一部分,而它们中绝大多数都涉及大数据、人工智能、物联网等新兴技术。这些新技术通过无数软硬件实现万物互联,背后离不开智能运维的辅助。

  智能运维顾名思义是智能+运维。智能运维的概念是全球知名的IT研究与顾问咨询公司GART-ner 在2016 年提出的。当初提出时的英文全称为Algorithmic ITOperations,意指基于算法的IT运维。随着人工智能技术的发展,近两年该英文全称逐渐演化为Artificial Intelligence for IT operations,突出了人工智能算法在IT 运维中的应用,现在,这两种英文全称都能在不同文档中见到,同时并存。

  在综合各方观点的基础上,笔者认为智能运维的发展分3个大阶段6个小阶段。分别是人工运维、自动化运维、智能运维 3 大阶段。其智能等级参考TM Forum自动驾驶网络从L0-L5逐级递增,如图1所示。

  该阶段分L0手工操作与维护、L1辅助运维两个小阶段。该阶段完全或大部分依靠运维专家的经验规则进行故障定位、 根因分析和配置下发等管理任务的制定和执行。进入辅助运维的阶段,通过对重复性典型事件预先在系统中配置触发和调度策略,达到提高运维效率和减少人力成本的作用。

  该阶段分L2部分自治、L3条件自治两个小阶段。在L2部分自治小阶段,业内提出了 ITIL(Information Technology Infrastructure Library)、 Devops 等理念, 强调流程管理质量和打破开发、 运维的边界。在这个阶段业内逐渐达成IT研发和运维一体化的共识,但仍未规模化使用Devops工具,主要依靠在系统中定制编写自动化脚本,实现简单数据分析、可视化、参数配置等初始功能,类似早期BI(商业智能) 系统。到 L3条件自治小阶段,企业已经认可自动化运维的价值,开始停止自己开发脚本,转而使用市场上开源和付费的Devops工具。从OpenStack时代,再到现在的容器时代,借用工具出现了很多自动化运维的高级模式,如网络可用性工程 SRE (Site Reliability Engi-neer)、聊天机器人 ChatOps等。前者是在保证用户满意度的前提下,平衡系统功能、服务及性能多方因素,是涵盖Devops运维思想、组织架构和具体实践的完整体系ꎮ 后者通过插件或脚本实时执行团队成员在会话中输入的每一行命令,将过去成员在各工具输入的命令前端化、透明化,以进一步提升自动化程度。

  该阶段分L4高度自治 (又称智能运维前期阶段) 和L5完全自治 (即无人运维阶段) 两个阶段。当在某个领域自动化程度达到一定极限时,必然会被人们个性化需求推动着往智能化方向发展。

  L3和L4两个阶段从功能定义上来看,两者必定会在长期共存的状态下进一步演化, 预估会共存10-15 年,即在此期间内自动化和智能化程度均会逐渐提高。在智能运维早期,AI从单点应用着手,如KPI单指标的异常检测和趋势预测,逐步实现在单点应用上的自主发现问题、诊断问题、解决问题和性能优化。并在各垂直领域中,将专家经验积累成知识库,形成可重复利用的结构化知识点。

  在各单点应用逐渐智能化的前提下,将底层各维度数据打通,建立中间通用和专用能力层,灵活应用于上层服务。在每个应用中都能实现从数据自主采集、 自主预处理到自优化,模型上实现自主选择、调参、优化及部署。人们的需求将通过语音、 姿态、神情等特征进行控制和调度,系统也会自主发现、诊断和优化问题。

  在时间维度上,由于各行业自动化和智能化发展速度参差不齐,即使自动化运维和Devops概念已提出多年,但自动化运维工具在企业中的使用依然普及率不高,预计到 2030年超过 50%企业会普及使用Devops工具。同理,即使从2016年开始,已有企业开始尝试在单点应用上借用AI技术,但要大多数企业能达到高度自治的水平,依然至少需要20-30年时间的探索和发展。而要实现无人运维需要研发和搭建以算力网络、数字孪生、千脑感知网络、边缘智能等技术为基础的 “运维大脑”,在高度自治的智能运维阶段基础上,至少还需要20-40年时间。

  随着人工智能技术的不断深入,运维管理中,人的角色越来越主动,对数据和工具的掌控力越来越灵活。运维人员收集原始数据后,经过数字孪生和可视化后,再进行打标、模型预训练、结构化知识的提取,最终将专家的经验和数据衍生为应用知识,进而实现工具的自动化和智能化升级,如图2所示。

  无论是从已经进入AIOps阶段的企业技术架构图(如图3所示)中,还是从Gartner的定义中, 都可以清晰地看出:数据是智能运维的基础。准确地说,具备数据能力是一家企业进入智能运维的必要条件。

  根据Gartner的定义,AIOps 产品或平台主要包括以下5类技术要素。

  数据是企业的核心资产,随着数据量、数据维度的爆发式增长,现有的监测分析工具在处理这类数据时压力很大,且现有的BI或数据分析工具只能满足简单的数据分析和可视化功能,如Tableau 其无法自动化地在企业跨越多种数据类型采集、洞察数据,进而给出决策。

  目前所有的AIOps平台需能够提取静态数据 (历史数据) 和动态数据 (实时、 流式传输数据)。这些平台允许事件数据、用户数据、日志数据以及图形和文档数据的提取、索引和存储。

  数据能力,具体包括数据采集、数据存储、数据治理、数据服务4项核心能力,即以数据中台/ 大数据平台/ 数据湖等形式存在的数据底座,至于这几种数据底座的名称之间的细微差别,读者可暂时理解为同一事物。

  每天数据量在1TB以上、底层平台超过5个以上的企业,建立一个可用的数据底座至少需要3年时间。而且这3年中需要一边建设数据底座一边将其与运维业务紧密结合,在试错中建设。构建统一监控平台,实现IT资源的统一管控。利用大数据的手段,采集、分析基础设施、网络、日志等IT监控数据,通过海量IT数据的实时处理分析,消除数据孤岛,实现统一的告警,提升运维管理效率。

  由于采集的数据集依然是按照业务逻辑从各平台取出后按表存储的,与后期各类运维场景使用的数据结构相差甚远,因此,需要在数据底座上针对每种运维场景 (当然场景的数量是慢慢积累的),建立企业自身运维的数据标准,并通过自动化程序和配置采集程序来采集标准数据。在数据底座上建立一个个标准化的数据模型,每种运维场景需要的数据可以是一个数据模型中的数据,也可以是多个数据模型组合的数据ꎮ 这种数据模型后期将在无人运维阶段,通过数据孪生技术从大数据平台中自动生成。数据将通过统一接口服务于智能运维。

  智能运维最终必然会进化为无人运维,类似汽车、飞机的无人驾驶, 只有在人为需求变更条件下主动干预才会影响机器的正常决策。要想实现无人运维,背后一定需要类似人脑的 “运维大脑”的实时支撑。

  从图4所示的基于无人运维技术体系架构来看,首先需要解决数据来源安全、分布式算力整合调度、人机智能融合、智能免疫系统、信任体系价值网络和脑机操作接口等重大难题,进而实现主动任务求解、自适应强化学习、虚拟场景重建、认知整合、数据应用闭环统一和价值交互模式。

  要解决上述难题,实现 “运维大脑”,提升其知识泛化能力,很可能是以区块链技术建立分布式可信价值网络生态,加上联邦学习,实现从数据提取、算法选择、算力和存储资源的使用,到数据在使用方的分析应用和优化,在每一次反馈中不断积累价值,形成知识。基于区块链技术运维大脑数据计算流程示意图如图5所示。

  •面向任务的自动机器学习(Auto-ML):自动超参优化编码学习、大规模图卷积学习。

  •认知智能混合技术:基于自动特征工程的认知特征提取、基于深度学习的视觉问答VQA(Visual Question Answering)技术。

  这是一本通过十几个实际运维案例,详细讲解每个运维场景中的痛点、适用的算法、试验和最终方案。无论是当前已在该领域的从业人员,或是希望转型进入该领域的新人,亦或是管理人员,都能从中获得智能运维在算法研发过程中的实战经验和实操指南。

  本书是一本介绍智能运维的实战指南,聚焦实际应用场景,通过十余个实战案例,详细讲解每个场景中的痛点、适用的算法、试验和最终方案,系统介绍了AI技术在运维工作中的应用。本书内容分为3部分,第1部分是智能运维、人工智能的概念和发展趋势,包括第1、2章;第2部分是智能运维中需要用到的人工智能技术和算法,包括第3、4、5章;第3部分是智能运维实战案例,包括第6~11章。