ai 标注工具 AI（NLP语义方向）标注工具产品设计的5个锦囊

AI资讯2年前 (2023)发布 fengdao

157 0 0

一、认知基础

个人观点的认知基础如下，如果读者不认同50%以上，那么就没必要浪费时间阅读后续内容了，反之，我希望大家多质疑与交流，通过Q&A来共同进步。

认知1：人工智能发展粗略可以分3个阶段：符号主义（第1阶段）→ 联结主义（第2阶段）→ 理想AI（第3阶段），我们将长期（＞30年）处于第2阶段

符号主义：代表人物纽厄尔和西蒙，认为人类的智能不管多复杂，归根到底都是由符号计算来实现的。只要计算机科学家设计了适合的程序，计算机早晚有一天能凭着符号的计算，也能提出相对论、创造罗纳尔多的射门、而剪纸捏泥人和书法篆刻就更不在话下。

符号主义的缺陷：很难在非常复杂的求解组合中快速找到最优解。

联结主义：代表人物大卫休谟，认为人工智能的首要任务是建立大脑的模型，不是预先给定解决问题的算法，而是构建一个在计算机上模拟的“神经元网络”，让机器自主地建立不同神经元之间的“联结”，通过最终结果的反馈，不断调整联结的模式，最终逼近最优解。

联结主义的缺陷：过于依赖经验数据

理想AI：感知智能+认知智能+情感的主观感受+自我意识

理想AI的缺陷：暂时无实现方案

认知2：AI执行语义理解任务，当前已经到了技术成熟期，后续依赖产品力和数据

文本标注工具_标注工具栏怎么调出来_ai 标注工具

粗暴一点说，各家算法基本无差别（＜10%）。以解决实际业务问题、实现业务价值为衡量标准的话，产品的易用性（决定落地门槛/规模/效果）、组件化程度（决定成本），数据的数量和质量，才是决定价值的砝码。

认知3：中国现阶段（10年内）ToB市场，大B的真需求都在自给自足，第三方服务中小B才是正途

大B只有探索型需求和伪需求（为了体制内的升官发财）才会留给第三方，所以一个第三方公司如果敢说只做大B，那么一定是死路一条或者半死不活（无法建立壁垒/低利润率）

二、为什么我们需要标注？

认知1中提到“联结主义的缺陷在于过度依赖经验数据”，那经验数据是什么？经验数据 = 已标注数据。

未标注数据只能用于无监督机器学习，当前执行99%以上AI任务的都是有监督机器学习模型，预计未来30年以内还会保持现状。所以数据标注就是绕不开的槛。

三、锦囊

效率高是好的标注工具的唯一标准，所以3条锦囊全部都是围绕语义标注工具效率提升。

效率 = 认知效率 + 操作效率 + 智能化，以下锦囊也都是沿着这3个提升效率的方向进行的产品设计。

锦囊1：互斥性原则

语义模型本质上是一个分类模型，分类最关键的是类别清晰，例如想想折磨我们的垃圾分类。互斥性值得就是不同类之间要做到不重不漏（漏的部分一定设置专门的“其他分类”来兜住）。

ai 标注工具_文本标注工具_标注工具栏怎么调出来

具体到产品设计上，歧义优化（根据向量相似度，自动识别不同类之间存在交叠关系的语料），分类说明（设置为必填项）等都是互斥性原理的具体体现。

锦囊2：聚类冷启动

Bert无监督聚类模型做冷启动，“效果杠杠的，谁用谁知道”。缺失此模块，数据标注人员冷启动阶段就全靠想象力“瞎编”。我见过太多数据人员编写相似句（同一语义不同句式表达方式）写到生无可恋。上线周期还会因为标注效率低和效果差一拖再拖。

锦囊3：By分类智能推荐待标注语料

来，这一条锦囊大家可以在评论区猜一猜是啥意思？

锦囊4：闭环调优

语义模型调优 = 正向调优（By准确率）+ 反向调优（By ）

指模型判断结果存在偏差的语料（来自于测试集+业务侧收集反馈），是极其宝贵的复盘资料。设计原理是从点状问题（）顺藤摸瓜找到本质问题（如ASR准确率、语义分类体系问题、存在大量歧义等）进行解决。反向调优可以极大提升模型的准确率、覆盖率等核心指标。

锦囊5：隔离数据管理与标注工具

若不进行隔离，随着产品功能复杂度的提升，标注工具的认知门槛会陡增。可以理解为厨房里的原材料和锅碗瓢盆混在一起丢到了一个橱柜中。这将严重影响产品给用户的确定感，会将标注效率直接打6折。

结语

AI执行语义任务，标注是绕不过的槛。但只要我们通过“傻瓜式工具”辅助用户轻松迈过去，AI对真实场景的赋能价值将被放大100倍以上。

# AI资讯 # 主义 # 标注 # 模型 # 认知 # 语义

文章版权归作者所有，未经允许请勿转载。

如何引导chatgpt写毁灭人类计划书 AI再破圈，ChatGPT爆火：能写出毁灭人类计划书，还能改bug写代码

fengdao

150 0

文心一言和chatgpt4算力对比百度发布文心一言！对比GPT-4实测！百度顶住压力，背水一战

fengdao

140 0

chatgpt4.0解释模型 GPT-4震撼发布：多模态大模型，直接升级ChatGPT、必应，开放API

fengdao

203 0

chatgpt是人工智能还是ai智能 ChatGPT加速AI时代业界析中国人工智能产业机遇挑战

fengdao

181 0

ai建模工具英国一AI产品被指实为人工，这是AI初创公司的惯用套路吗

fengdao

158 0

chatgpt硬件龙头股国内大模型“混战”引发股市“过山车”，ChatGPT还能炒多久？

fengdao

175 0

暂无评论

暂无评论...

ai 标注工具 AI（NLP语义方向）标注工具产品设计的5个锦囊

千巴库ai短视频剪辑工具千巴库AI剪辑工具 v3.6.5

云智ai软件【人工智能技术应用案例】泰山信息：泰山AI视频云

相关文章

暂无评论

ai 标注工具 AI（NLP语义方向）标注工具产品设计的5个锦囊

千巴库ai短视频剪辑工具 千巴库AI剪辑工具 v3.6.5

云智ai软件 【人工智能技术应用案例】泰山信息：泰山AI视频云

相关文章

暂无评论

千巴库ai短视频剪辑工具千巴库AI剪辑工具 v3.6.5

云智ai软件【人工智能技术应用案例】泰山信息：泰山AI视频云