近年来,AI应用正从泛C端领域向能源、制造、金融等传统行业辐射,并加速落地覆盖企业经营生产的各个环节。在此过程中,数据治理是决定AI规模化落地效率的重要因素之一。据艾瑞咨询调研数据显示,在实施AI项目的过程中,数据治理环节需耗费90%以上的精力。
如何让数据可知、可用、可管并充分发挥数据资产的价值?近日,艾瑞咨询发布《中国面向人工智能的数据治理行业研究报告》,聚焦金融、零售、医疗和工业四大典型行业,在分析各行业的AI应用需求与痛点之际,也一同给出了AI数据治理体系搭建的建议。以下,enjoy~
金融:
基于传统体系管理AI应用
金融业是我国信息化发展程度最高、信息技术应用最密集的行业之一。在政策引导与内生需求的双重推动下,金融行业不断拓宽AI应用场景,业务领域实现了由前台(智能客服、智能营销)向后中台(智能风控、反欺诈、智能监控、智能催收)的转化渗透。
整体而言,金融业AI应用落地场景呈现 多元化特征,高频高价值的AI应用场景对技术融合、数据质量与业务理解的要求普遍较高。此外,该领域的AI应用多为 业务导向型,即根据业务需求逐项治理数据,导致二次加工比例高,约为60%。
因此,金融业应在传统数据治理体系基础之上,随着AI应用的丰富,逐渐区分、建立出面向AI的数据治理体系,主要分为四步操作:
明确目标,理清关键
根据建设AI应用而出现的数据质量需求,明确数据治理的目标,理清数据治理的关键点。
确定数据,制定规划
分析数据管理和数据质量现状,确定不一致、不完整、不准确的待治理数据,从组织、人员、流程、数据四个方面入手,规划全方位可持久的数据治理体系。
建立指标,管理数据
根据AI建模需要,建设针对性数据集,涉及元数据管理、贴源层管理、应用层管理、数据权限管理等,从业务视角对需求场景涉及的指标抽象、归类。
持续输入,优化方案
确保高质量的数据输入,保证特征工程与模型训练效果,不断优化数据治理方案,以便快速应用于AI场景,保障持续学习与模型更新能力、提高复用率,减少重复治理。
零售:
聚焦核心场景
解决全维度数据痛点
在新冠疫情的倒逼驱动、购物渠道多元化、消费主力军年轻化等因素作用下,我国零售行业正加速数字化升级进程,向全渠道、数字化、智能化的新零售转型。
营销运营和供应链管理是零售转型升级的核心业务场景,存在着从数据采集、数据处理到数据应用的全维度数据痛点,极大影响AI模型的落地应用效果。例如,在数据采集环节,数据采集丰富度和时效性有待提升;在数据处理环节,由于消费者的购物、行为等数据来源庞杂、类型繁多、管理复杂,数据质量标准亟需优化;在数据应用环节,由于零售供应链路过长,生产、销售和物流等多环节数据难以贯通。
因此,零售行业的数据治理体系,应围绕营销运营和供应链管理,从三个维度展开建设——
数据采集:通过会员识别、客流分析等手段,丰富线下数据的采集维度。同时,构建批流一体数据架构,从采集端开始支持流式数据的接入抽取。
数据处理:为AI应用的数据源构建统一的基础数据、指标数据和模型开发标准。同时,对其数据范围进行统一质量管理,避免数据反复清洗。
数据协同应用:以零售行业积淀为底,统一数据模型开发标准,并建立服务于AI模型开发的特征管理中台,不断沉淀优化零售应用的开发经验与业务逻辑。
医疗:
夯实数据基础, 持续迭代升级
近年来,在国家政策与医院实际需求的推动下,AI+医疗场景步入快速发展期。同时,医疗服务范围也逐渐向院外延伸,形成了以大健康产业为重点的医疗卫生服务体系。就医疗领域的AI应用而言,医学影像、医保控费是院内最成熟的领域,而基因检测、新药研发则是院外最主要的应用领域。
当前,医疗数据在流通、共享、存储、管理等环节尚未标准化,导致数据多源异构难汇集、数据标准体系不健全等问题始终存在, 数据质量成为掣肘AI医疗应用发展的核心痛点。
因此,医疗行业数据治理体系的搭建应该以打好数据基础为主,具体可分为四步:
夯实基础
在提升数据质量的同时,尽可能以数据多样性为指导,引入全域数据。
选择场景、共建运营能力
医疗行业的IT能力普遍相对较弱,AI建设多为单点建设。在确定AI应用场景之后,应以平台建设为主,引入治理工具,与供应商共同建立数据治理架构与体系,保障持续运营能力。
数据管理规范与安全保障
在数据治理过程中必须要保障患者隐私、数据安全和医疗质量。数据的共享、接入、标准化、管理等过程中,需要制定严格的管理规范。
建立执行通道、迭代推广
医疗行业有大量有价值的历史数据等待挖掘,医院在搭建了完整的数据治理体系之后,应以建立持续迭代运营的数据治理体系为核心,搭建切实可行的执行通道,形成数据闭环。
工业:
数据基础不同的企业按需选择
新一代信息技术逐步与工业制造业深度融合,引发影响深远的产业变革。2021年,以机器学习与深度学习、知识图谱、NLP、计算机视觉为技术主导的中国工业智能应用核心产业规模达到93亿元。
在工业数字化转型升级的背景下, 工业大数据仍面临来源多样、数据时序性要求高、机器复杂度高等诸多痛点。例如,工业产业链条长及工业机理复杂,需了解大量工业技术原理、行业知识、基础工艺等,十分强调赋能者对行业背景的理解。
当前,我国工业整体数据治理水平处于滞后状态,不同数据基础的企业应按需搭建相应的数据治理能力:
对于数字化转型现行、资金实力雄厚、IT支持力度强的工业企业来说,不断加强自身数字化转型程度,在AI平台搭建和算子()丰富的同时,也需进行平台能力搭建和数据治理体系完善。
对于数据基础薄弱、业务需求不清晰、IT支持力度弱的工业企业来说,首要任务是从可解决企业痛点难点和驱动经济效益的典型场景出发,开展AI应用落地试点及对应范围的数据治理工作。
面向AI应用的数据治理,部分专业的AI技术服务企业已积累一定经验,将为各行业的数字化转型升级、AI应用与落地提供多维度的支持与服务。
其中, 君联资本所投企业海致科技是国内领先的一站式AI数智企业。与旗下子公司海致星图一起,海致科技依托技术的领先性和产品的高性能快速成为市场头部企业,服务覆盖包括金融、政府、能源、应急、医疗、交通、制造、互联网在内的多个行业,积累了大量丰富的场景应用经验,已围绕安全治理、金融风控、金融监管、舆情洞察、企业画像、综合情报预警研判等主题,落地了诸如大数据疫情防控(包含武汉在内的全国240多个市县)、上市公司画像及智能监管、冬奥会数字安保平台等多个行业的代表性解决方案。目前,海致科技已成为公安、电力和金融知识图谱行业标准制定的参与方。
联想之星所投企业、国家级专精特新“小巨人”企业达观数据深耕AI中的自然语言处理领域。在文本语义分析与知识图谱研发方面,达观数据申请了100余项国家技术发明专利,尤其在文档版面自动分析、语义自动理解、票证自动识别、文书审阅和起草写作等方向做出了很多技术创新。达观数据还首创了“智能RPA”系统,将机器人流程自动化RPA与智能文本IDP相融合,广泛用于企业内的业务文档审阅、搜索推荐、资料报送、文字分析等办公超自动化场景,为众多500强知名企业客户的“智慧办公”创造了价值。
在市场需求、技术赋能等驱动下,面向AI的数据治理市场具备较大潜力。根据艾瑞咨询统计,2021年我国面向AI的数据治理规模约为40亿元。受数据平台服务、数据治理服务和AI应用建设的需求推动影响,市场规模将持续上升,2026年有望突破百亿达到105亿元,也将成为我国各行业数字化转型的一股重要推动力量。