引发的这波AI浪潮越来越汹涌,似有颠覆一切的劲头,有科技大佬宣言“所有产品都值得用AI重做一遍。”
这边厢,一众科技大佬离职创业奔着AIGC领域狂飙而去,那边厢对职业的冲击以迅猛姿态前来,前有蓝色光标全面停用文案外包,近日上万名美国编剧罢工抗议抵制AI。
不过在产业界企服领域,从业者们判断,的应用还处在摸着石头过河阶段,更深远的影响犹未可知。想起几个月前“企业是否该招聘DBA”引发的热议,也源自新技术冲击。如今大家也会比较关注将如何影响数据库运维,是否会颠覆数据库运维?
近期,IT168&ITPUB找到南京基石数据技术有限责任公司技术总监,数据库运维专家白鳝(徐戟),就相关问题进行了交流。
△白鳝
数据库智能运维的第三条路
白鳝,这位有近30年经验的DBA老炮对新技术有独特的敏感,去年刚发布不久就注册了账号体验,的表现让他眼前一亮,“能不能用在数据库智能运维方面”的想法也第一时间涌上他的心头。
白鳝介绍,AI在智能运维的应用经历了专家模型、知识图谱、异常检测算法等几代发展,但过去的智能化发展会有一些限制,比如专家模型需要大量研发,不断迭代专家库,而且专家库针对性强,很难复用。异常检测算法这种基于神经网络的算法,训练成本高,普适性和通用性较弱。而的出现降低了AI的使用门槛,增加了普适性。可以把运维领域的知识语料与大模型结合辅助运维。这是他们看到的大语言模型在数据库运维领域应用的一个可能性。
他们团队也做了尝试,让解读日志,解读的AWR(自动负载信息库)报告。一些常见的问题可以做简单分析,有的故障分析比较准确,较为深入的问题可能就没那么灵光。如果针对性输入一些报告案例,的准确度会有很大提升,有时候给出的解决方案堪比专家水平。这样的大语言模型是基于概率以及语料库给出回答,回答结果受限于语料库的丰富程度。只要有足够且相对准确的语料训练,大语言模型可以在智能运维中发挥很大的作用。起码在日志分析方面,目前在基础能力上已经相当不错。
实际上,自工作以来,白鳝一直在智能运维方面探索,从早期帮运营商做常见问题分析路径工具,到近几年他和团队做了D-SMART运维知识自动化系统,现在大模型给了他们一个更好的武器。
白鳝介绍,目前市场上常见的数据库智能运维有三条路线,一种路线是基于大量的数据采集和异常检测算法,通过算法能力实现,不需要特别资深的DBA专家参与就能做起来,但是行业落地效果不太好。该路线需要在现场做各种模型,具有明显的行业特征,换个行业就需要重建模型,行业复制能力弱,甚至同一行业的不同规模企业也不具备可复制性。
第二种路线是基于APM,通过全链路监控发现可能存在的问题。基于APM全链路监控模式对应用的感知能力较好,对于像银行交易这种应用链路较长的场景,APM全链路监控有比较好的效果。但是下钻到数据库运维的具体场景,可能无法有效定位问题。该路线有一定的门槛,需要很多专家参与。
白鳝他们团队是第三条路线,专门针对数据库运维,基于专家知识构建知识图谱。利用现有的知识图谱、人工智能、大数据分析等技术对信息系统的监控数据进行加工分析,结合运维专家的运维知识以及实际故障案例,形成一套以运维知识为核心能力的深度运维工具,这便是D-SMART的由来。
白鳝介绍,基础数据能力是实现智能化运维的基础。需要通过运维专家对运维对象指标体系分解,构建标准化指标体系。其中,运维知识图谱建设又是数字化能力的基础,通过知识梳理形成完善的知识库体系,并根据实际应用案例不断提炼和丰富,知识图谱可以实现智能化推理,获得赶超专家的能力。
的出现为智能化运维提供了一些新的技术手段,将D-SMART中产生的数据与自动诊断结果输出到大语言模型中,利用大语言模型的推理能力和对话交互能力与DBA沟通,肯定能够发挥巨大的作用。比如说我们可以利用LLM与D-SMART交流,询问今天系统的运行状态如何,有哪些值得DBA关注的问题。
AI解决不了运维最后一公里问题
在过去这些年里,IT系统变得越来越复杂,随着技术发展运维模式也不断升级,从监控到自动化运维再到如今的智能化运维,不断解放人力。以前数据库数量少,数据库运维的监控指标较少,数据库运维基本靠人就可以。但是随着数字化转型深入,对数据库有更高的需求,企业的数据库数量可能从以前8个大型数据库拆成成千上万个小库,如此多的小库再靠以前的纯人力监控已无法实现。
比如,有一家企业有两千多个PG数据库,只有十多个DBA,即便用了智能监控工具,也看不过来。他们会默认AI模型正确,只要智能监控工具不报警就不管,报警后再做分析,而且一些并不重要的报警,也不会在平台上继续深入分析,因为根本忙不过来。
白鳝介绍,目前AI还解决不了最后一公里的问题,起到辅助作用。AI不能100%明确指出问题所在,但是可以帮助专家缩小分析范围。就像前文所述任何智能都是基于概率,在数据库故障诊断时可以判断某个影响因素是90%,某个因素是10%,进行根因收敛,减少运维人员的工作量,最后的一公里还需要专家,有了这样的AI与数据库结合,或许将最后一公里的路程又往前走了500米。
以自动化诊断为例,首先根据知识图谱临近发现可能有关系的领域,这些领域涉及多个指标,针对这些指标,可以做异常检测,如指标集中20个指标里面有4个指标异常,会将这4个指标组合去做根因收敛,发现可能的问题,是负载过高、资源不够还是基础能力不足等,将这些收敛结果告诉运维人员,缩小了分析范围,可以更快速确定问题。问题定位时间能够从几个小时缩短到几分钟,减轻了运维压力。
白鳝介绍,D-SMART这样基于知识图谱的数据库智能运维系统,图谱的每个节点对应着这些运维专家提炼的原子知识点,有的原子知识点就是自动化工具,比如有的工具专门分析IO问题,有的专门分析CPU爆掉的问题等等,D-SMART现在已经覆盖了几千个这样的基础知识点。更多人以及更多真实案例的加入和反馈,都会使图谱更强大,使得这个数据库智能运维系统不断优化迭代。
运维领域有句至理名言,数据库运维中的最大困难是未知。现在数据库厂商也在不断强化其数据库产品的智能运维能力,白鳝认为数据库原厂的自动化运维或者智能运维能力更多是通用的能力,无法事无巨细地覆盖到海量的应用场景。“国产数据库现在还有一个最大问题是应用场景还不够,对各个应用场景,故障模型的反馈都不够。”数据库是用出来的,数据智能运维也是需要不断在更广泛的真实应用场景中去磨炼提升。
独行快,众行远,只有联合产业各方力量才能更好推动数据库智能运维发展,去年8月,社区正式上线,这是佰晟众信与基石数据联合打造的一个数据库智能化运维生态平台。期望依托于“数据库专家社区版(D-SMART社区版)”软件,构建一个完整的基于运维知识图谱的数据库智能化运维生态体系。社区会与数据库厂商共同合作,取长补短。今年社区的工作重点将全面提供信创数据库的支持。加强企业、社区、用户之间的互动,让用户、服务商、专家、社区、数据库原厂之间更好协同。
智能化对DBA影响几何?
最近这半年来,“企业不该再招聘DBA了”的言论令DBA很受伤。白鳝认为,企业是否需要招聘DBA是个伪命题,因为是否需要DBA与企业的应用架构有关,比如电网行业电力调度本来就没有专业DBA。
他认为智能化发展不会替代DBA,但是会减少其工作量,从某种程度上会影响DBA职业。总体来看,智能化可以在多方面对数据库运维进行辅助,专家的高阶能力会更为突出。
具体而言,对于初级DBA,智能化降低运维门槛,减少重复性的工作,更多是减轻工作量。但是对于初级一线工程师,其大量工作不会被智能化替代,比如机器上架、基础配置安装等。对于中级DBA,智能化会削弱他们与初级DBA之间的技术差异,一定程度上会降低中级DBA本身的价值,但还是能提升其能力。对于专家级DBA,智能化更是无法替代,可以辅助他们更快速解决一些以前不太能解决的问题。
实际上,随着数字化的不断深入,数据库的数量也水涨船高,有很大的增长,对DBA会有更大的需求。白鳝此前和一些DBA交流时发现,有的医院几年的时间数据库数量从10套左右增加到了100多套,这需要更多更高水平的DBA来处理问题,“如果没有智能化,DBA不够用,智能化不会让大量的DBA失业,而是帮助解决DBA不够用的问题,特别是高水平DBA的缺失问题。”
你觉得智能化会对DBA产生怎样的影响?会与数据库运维产生怎样的火花?欢迎留言讨论。
近期文章精选