阿虚同学
读完需要
15
分钟
速读仅需 8分钟
关于语音转文字这个话题,阿虚已经是几年之前了
除了不少工具失效,如今又有了新的工具出现,再加上经常被大家问到,且阿虚自己也有这个需求(经常需要帮我妈转换视频成文本她方便学习),所以今天就打算再来替大家研究一下2023年的语音转文字方案
虽说是语音转文字,但实际上视频转文字也可以划到同一个问题场景之下——毕竟随便就能找到软件把视频转为音频
阿虚很早之前就推荐过(点击即可查看)
除此之外,视频生成字幕其实也可以归属于同一类问题(带时间轴),不过这个问题更多应该是视频制作者才会需要,(点击即可查看),这里就不赘述了
阿虚这篇文章还是就准备再来重新介绍一下2023年值得推荐的语音识别工具(按提供服务的厂商进行介绍)
最重要的各平台识别质量对比,请见文末
网易
1.1
网易见外(网页)
地址:
网易见外是网易人工智能事业部旗下的 AI 视频翻译产品,阿虚印象中好像是国内最早一批上线的此类服务了
而天地良心的,从2017年9月上线到现在,这个平台一直都是免费的!虽然这期间有过平台将下线的流言,但事实上直到如今依旧可以正常使用
你只需要登录你的网易账号,就可以享受这个平台诸多的「AI 智能转写」服务,从最开始主打的视频翻译,到如今已经支持视频转写、字幕翻译、文档翻译、语音翻译、语音转写、会议同传、图片翻译整整8大功能了
如果我们需要将视频或者音频转成文字,那么需要使用的是「语音转写」这个功能
单次仅允许<500M,mp3、wav、aac 格式的音频文件,支持中文或者英文,另外据悉每天上传的音频不能超过 2 小时
阿虚测试了一个4分多钟的音频,大概不到1分钟就转写好了,转写好之后可以在线预览:随着音频播放会加粗高亮显示实际转写出来对应的哪一句
如果你发现整个文档有某些词都统一转写错了,还可以点击顶部进行「词汇替换」,同时这里也可以进行「语气词过滤」
确认没问题之后最后可以在右上角导出为 Word 文件,使用起来可以说是相当便捷简单的
1.2
有道云笔记(安卓/iOS)
地址:
这里还不得不说网易其实在语音识别这块做的挺良心,除了有完全免费的网易见外,旗下的有道云笔记的实时语音识别竟也是完全免费的
如果你需要边录边转写,那有道云笔记或许就是一个非常不错的选择,只需要登录有道云笔记,点击语音速记 » 再点击转文字就行了
识别完成之后,可以把识别结果导出为存文字笔记(存文字,基本上和 TXT 差不多)
腾讯
2.1
腾讯云语音识别(网页/微信小程序)
地址:
除了网易,腾讯其实也提供了语音识别体验服务,打开上述链接点「立即使用」,登录腾讯云账号即可
目前的话免费额度还是相当良心的,不仅支持上传录音文件,更是支持实时语音识别,对个人偶尔使用我觉得这个每月额度完全足够(实在不够你可以弄多个账号嘛)
计费规则可能会变动,最新计费说明见官方文档:
找到功能体验,我们就能上传文件进行识别了,目前识别语言支持普通话、粤语、上海话、英语、日语,并且还有非常强大的一点是支持分离说话人,即如果音频中有多个人说话,将会自动区别开!
具体识别结果要不要时间戳可以自行选择,导出的识别结果是 txt 文件
在网页端扫描二维码之后,即可在手机端的微信小程序进行实时语音识别(每月5小时)
2.2
字幕组机翻小助手 Tern(Win/Mac)
地址:
如果你访问困难,建议了解
除了上述从网页端使用腾讯云语音识别,我们也可以利用字幕组机翻小助手这款开源软件来进行调用,使用没啥难度,把文件拖进去点击开始识别即可
当然是用前需要进行比较繁琐的参数配置,这里的话由于软件内有提供详细的步骤,阿虚就不在此赘述了
其实从下图可以看到我们还可以配置阿里云、讯飞、IBM等服务商的语音识别服务,但除了阿里云、腾讯、IBM 其他都是收费才能使用,并且 IBM 注册配置稍显麻烦,中文识别肯定没有国内服务商做的好,阿虚也不是很推荐去折腾了
阿里巴巴
3.1
(Win)
地址:
如果你访问困难,建议了解
这款开源免费的软件,其实也在之前那期文章就介绍过,通过这款软件我们可以几乎免费使用阿里云的语音识别引擎,个人每天有 2 小时的语音识别免费额度
计费规则可能会变动,最新计费说明见官方文档:
只不过是用这款软件的步骤比较繁琐,需要我们手动先去申请阿里云的相关 API,配置到软件之后才能使用
具体 API 的申请&配置,作者做了长达10分钟的超详细视频教程,阿虚便不在此赘述了:
▲扫码即可查看
总之等你花大把时间把OSS、语音识别引擎的参数都配置好之后,就可以轻松使用软件了
字节跳动
4.1
飞书妙记(全平台)
地址:
飞书妙记则是这几年新晋互联网巨头字节跳动(抖音的公司)旗下产品,目前也是非常良心的完全免费
使用方法异常简单,注册登陆后,直接上传音频或者视频就能进行识别转换了,目前支持普通话、英语、日语
支持识别不同说话人,同时能自动添加标点符号和章节分段,识别完成之后可在网页有上角导出为 TXT 或 SRT 格式
除了网页端,在飞书APP上搜索安装飞书妙记应用之后,也可以快速在移动端录制音频进行识别(在录制时就会实时展示转写结果)
4.2
剪映(Win/安卓/iOS)
然后说一下在之前那期文章里介绍过的剪映——这个其实也是抖音旗下产品
因为和飞书妙记的产品线不一样,一个是辅助会议记录,一个是为了降低用户发布抖音门槛,所以决定了两款产品未来的收费机制可能会不一样(剪映可能会一直免费下去,毕竟其已经区分了普通版和专业版)
之前还需要把音视频传到手机APP上进行字幕生成,现在也可以在版剪映上进行操作了(实测目前网页版还不能进行此操作):
使用方法也很简单,打开软件点击 » 开始创作,把音视频文件拖入到素材库 » 再将音视频拖入到剪辑轨道
然后切换到文本功能,点击智能字幕,再点击开始识别,即可轻松进行语音识别了(最大支持 2 小时且不限次数使用)
转换完成之后我们在右上角就能进行导出,可以仅保存字幕文件为 TXT 或者 SRT 文件
同花顺
5.1
悦录(网页/安卓/iOS)
地址:
悦录是早在前几年阿虚就有补充推荐的免费 AI 语音转文字工具,实际是浙江核新同花顺网络信息股份有限公司(成立于1995年,于2009年在深交所上市,是国内第一家互联网金融信息服务行业上市公司)旗下产品
时至如今依然每日可免费转换 3 个小时的普通话,200小时音频的云端存储空间(相当于云盘),另网站和APP均支持导入wav、m4a、aac、mp3、amr、wma 等音频格式和 mp4、3GP、mkv、flv、mov、wmv、mxf、avi 等视频格式(单个音视频文件限制<500M)
同时支持区分说话人,还对金融财经、科技领域的音频有进一步的识别支持,并且支持提前输入音视频内的关键词来提高识别准确率
识别完之后可以在线查看,可以导出为 word 或者 txt,同时可以自行选择带不带时间戳
虽然不支持实时语音识别,但可以通过APP录音之后快速进行识别转换
百度
6.1
百度飞桨 (Win)
地址:
既然网易、腾讯都介绍了,人工智能这块又怎么能少的了国内最早在此领域发力的百度?
早在2017年5月,百度飞浆就开源了旗下语音方向的模型库——
模型库有什么用呢?之前研究过的小伙伴应该都明白,AI 之所以能理解人类的意思,实际都是靠不断喂数据+反复匹配来提高吻合率的——AI 语音识别这一块也是一样
简单来说,根据百度飞桨官方文档搭建运行环境、安装依赖、下载模型库、编译源码之后,我们就能在本地离线进行语言识别了——不过自然这对90%的人来说都太难了
公众号@万能君的软件库基于 开发了普通人也能一键使用的语音转文字工具,最关键的是可以离线无限次使用!
考虑到兼容性,目前的版本仅支持 CPU 转换,所以速度确实慢些⚠️(测试 R5-3600 的 CPU 一分钟音频转换时长30s,而测试 RTX 2060 显卡仅需 3s),仅支持 64位系统
不过这个软件因为考虑到硬件方面的差异,对音频做了切分(每个切分片段时长 1 分钟),所以会影响一些句子的识别
最终转换结果的话,会自动保存为软件目录的「音频转换结果」文件夹下的 txt 文件
这款软件你可以到原作者公众号下载,为防失效阿虚也做了搬运,在阿虚公众号后台,发送以下关键词,就可以得到不限速下载地址了:
“
语音转文字
”
大家都知道 是 公司训练出来的大型语言模型,而其训练的模型其实远不止此
去年年底, 开源了其经过 68 万小时多语言(99种)数据进行训练得出的大规模的语音识别模型——:
在现如今的综合离线的语音识别工具中,他应该是目前最好的选择!
当然,只有预训练模型我们是无法使用的, 官方的部署运行方法对于多数人来说也是过于复杂,但好在已经有开发者为我们一般人开发了带界面的软件,只需要下载软件+再导入 模型即可使用了
为应对不同的语音转录需求, 一共推出了 tiny、base、small、、large 5档模型,具体自己电脑能跑的动哪个模型得看显卡性能
同时为了方便理解,下面的相对速度用秒数表示(不代表实际时间),在相同的硬件条件下,处理音频所需时间
模型大小所需显存相对速度
tiny
39 M
~1 GB
32秒
base
74 M
~1 GB
16秒
small
244 M
~2 GB
6秒
769 M
~5 GB
2秒
large
1550 M
~10 GB
1秒
由于 的中文数据较少,如果转录的音频是中文,那么至少要用到 模型,才能保证绝大多数正确
7.1
(Win)
地址:
如果你访问困难,建议了解
下载 后,将 模型文件放入软件的 model 文件夹中,运行软件会让先让你选择模型,反正就是根据自己电脑性能能跑 large 就 large,不能就依次 、small…往下(当然如果你的音频太长,还得自己考虑处理时间)
不过由于 支持 GPU 硬解,转录速度还是非常快的,阿虚测试 4 分多钟的音频,使用 模型,几十秒就处理好了