ai全自动剪辑软件6.1 永久免费离线免费无限用！狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别

AI资讯2年前 (2023)发布 fengdao

211 0 0

阿虚同学

读完需要

分钟

速读仅需 8分钟

关于语音转文字这个话题，阿虚已经是几年之前了

除了不少工具失效，如今又有了新的工具出现，再加上经常被大家问到，且阿虚自己也有这个需求（经常需要帮我妈转换视频成文本她方便学习），所以今天就打算再来替大家研究一下2023年的语音转文字方案

虽说是语音转文字，但实际上视频转文字也可以划到同一个问题场景之下——毕竟随便就能找到软件把视频转为音频

阿虚很早之前就推荐过（点击即可查看）

除此之外，视频生成字幕其实也可以归属于同一类问题（带时间轴），不过这个问题更多应该是视频制作者才会需要，（点击即可查看），这里就不赘述了

阿虚这篇文章还是就准备再来重新介绍一下2023年值得推荐的语音识别工具（按提供服务的厂商进行介绍）

最重要的各平台识别质量对比，请见文末

网易

1.1

网易见外（网页）

地址：

网易见外是网易人工智能事业部旗下的 AI 视频翻译产品，阿虚印象中好像是国内最早一批上线的此类服务了

而天地良心的，从2017年9月上线到现在，这个平台一直都是免费的！虽然这期间有过平台将下线的流言，但事实上直到如今依旧可以正常使用

你只需要登录你的网易账号，就可以享受这个平台诸多的「AI 智能转写」服务，从最开始主打的视频翻译，到如今已经支持视频转写、字幕翻译、文档翻译、语音翻译、语音转写、会议同传、图片翻译整整8大功能了

如果我们需要将视频或者音频转成文字，那么需要使用的是「语音转写」这个功能

单次仅允许＜500M，mp3、wav、aac 格式的音频文件，支持中文或者英文，另外据悉每天上传的音频不能超过 2 小时

阿虚测试了一个4分多钟的音频，大概不到1分钟就转写好了，转写好之后可以在线预览：随着音频播放会加粗高亮显示实际转写出来对应的哪一句

如果你发现整个文档有某些词都统一转写错了，还可以点击顶部进行「词汇替换」，同时这里也可以进行「语气词过滤」

确认没问题之后最后可以在右上角导出为 Word 文件，使用起来可以说是相当便捷简单的

1.2

有道云笔记（安卓／iOS）

地址：

这里还不得不说网易其实在语音识别这块做的挺良心，除了有完全免费的网易见外，旗下的有道云笔记的实时语音识别竟也是完全免费的

如果你需要边录边转写，那有道云笔记或许就是一个非常不错的选择，只需要登录有道云笔记，点击语音速记 » 再点击转文字就行了

识别完成之后，可以把识别结果导出为存文字笔记（存文字，基本上和 TXT 差不多）

腾讯

2.1

腾讯云语音识别（网页／微信小程序）

地址：

除了网易，腾讯其实也提供了语音识别体验服务，打开上述链接点「立即使用」，登录腾讯云账号即可

目前的话免费额度还是相当良心的，不仅支持上传录音文件，更是支持实时语音识别，对个人偶尔使用我觉得这个每月额度完全足够（实在不够你可以弄多个账号嘛）

计费规则可能会变动，最新计费说明见官方文档：

找到功能体验，我们就能上传文件进行识别了，目前识别语言支持普通话、粤语、上海话、英语、日语，并且还有非常强大的一点是支持分离说话人，即如果音频中有多个人说话，将会自动区别开！

具体识别结果要不要时间戳可以自行选择，导出的识别结果是 txt 文件

在网页端扫描二维码之后，即可在手机端的微信小程序进行实时语音识别（每月5小时）

2.2

ai全自动剪辑软件6.1 永久免费_ai全自动剪辑软件6.1 永久免费_ai全自动剪辑软件6.1 永久免费

字幕组机翻小助手 Tern（Win／Mac）

地址：

如果你访问困难，建议了解

除了上述从网页端使用腾讯云语音识别，我们也可以利用字幕组机翻小助手这款开源软件来进行调用，使用没啥难度，把文件拖进去点击开始识别即可

当然是用前需要进行比较繁琐的参数配置，这里的话由于软件内有提供详细的步骤，阿虚就不在此赘述了

其实从下图可以看到我们还可以配置阿里云、讯飞、IBM等服务商的语音识别服务，但除了阿里云、腾讯、IBM 其他都是收费才能使用，并且 IBM 注册配置稍显麻烦，中文识别肯定没有国内服务商做的好，阿虚也不是很推荐去折腾了

阿里巴巴

3.1

（Win）

地址：

如果你访问困难，建议了解

这款开源免费的软件，其实也在之前那期文章就介绍过，通过这款软件我们可以几乎免费使用阿里云的语音识别引擎，个人每天有 2 小时的语音识别免费额度

计费规则可能会变动，最新计费说明见官方文档：

只不过是用这款软件的步骤比较繁琐，需要我们手动先去申请阿里云的相关 API，配置到软件之后才能使用

具体 API 的申请＆配置，作者做了长达10分钟的超详细视频教程，阿虚便不在此赘述了：

▲扫码即可查看

总之等你花大把时间把OSS、语音识别引擎的参数都配置好之后，就可以轻松使用软件了

字节跳动

4.1

飞书妙记（全平台）

地址：

飞书妙记则是这几年新晋互联网巨头字节跳动（抖音的公司）旗下产品，目前也是非常良心的完全免费

使用方法异常简单，注册登陆后，直接上传音频或者视频就能进行识别转换了，目前支持普通话、英语、日语

支持识别不同说话人，同时能自动添加标点符号和章节分段，识别完成之后可在网页有上角导出为 TXT 或 SRT 格式

除了网页端，在飞书APP上搜索安装飞书妙记应用之后，也可以快速在移动端录制音频进行识别（在录制时就会实时展示转写结果）

4.2

剪映（Win／安卓／iOS）

然后说一下在之前那期文章里介绍过的剪映——这个其实也是抖音旗下产品

因为和飞书妙记的产品线不一样，一个是辅助会议记录，一个是为了降低用户发布抖音门槛，所以决定了两款产品未来的收费机制可能会不一样（剪映可能会一直免费下去，毕竟其已经区分了普通版和专业版）

之前还需要把音视频传到手机APP上进行字幕生成，现在也可以在版剪映上进行操作了（实测目前网页版还不能进行此操作）：

使用方法也很简单，打开软件点击 » 开始创作，把音视频文件拖入到素材库 » 再将音视频拖入到剪辑轨道

然后切换到文本功能，点击智能字幕，再点击开始识别，即可轻松进行语音识别了（最大支持 2 小时且不限次数使用）

转换完成之后我们在右上角就能进行导出，可以仅保存字幕文件为 TXT 或者 SRT 文件

同花顺

5.1

悦录（网页／安卓／iOS）

地址：

悦录是早在前几年阿虚就有补充推荐的免费 AI 语音转文字工具，实际是浙江核新同花顺网络信息股份有限公司（成立于1995年，于2009年在深交所上市，是国内第一家互联网金融信息服务行业上市公司）旗下产品

时至如今依然每日可免费转换 3 个小时的普通话，200小时音频的云端存储空间（相当于云盘），另网站和APP均支持导入wav、m4a、aac、mp3、amr、wma 等音频格式和 mp4、3GP、mkv、flv、mov、wmv、mxf、avi 等视频格式（单个音视频文件限制＜500M）

同时支持区分说话人，还对金融财经、科技领域的音频有进一步的识别支持，并且支持提前输入音视频内的关键词来提高识别准确率

ai全自动剪辑软件6.1 永久免费_ai全自动剪辑软件6.1 永久免费_ai全自动剪辑软件6.1 永久免费

识别完之后可以在线查看，可以导出为 word 或者 txt，同时可以自行选择带不带时间戳

虽然不支持实时语音识别，但可以通过APP录音之后快速进行识别转换

百度

6.1

百度飞桨（Win）

地址：

既然网易、腾讯都介绍了，人工智能这块又怎么能少的了国内最早在此领域发力的百度？

早在2017年5月，百度飞浆就开源了旗下语音方向的模型库——

模型库有什么用呢？之前研究过的小伙伴应该都明白，AI 之所以能理解人类的意思，实际都是靠不断喂数据+反复匹配来提高吻合率的——AI 语音识别这一块也是一样

简单来说，根据百度飞桨官方文档搭建运行环境、安装依赖、下载模型库、编译源码之后，我们就能在本地离线进行语言识别了——不过自然这对90%的人来说都太难了

公众号@万能君的软件库基于开发了普通人也能一键使用的语音转文字工具，最关键的是可以离线无限次使用！

考虑到兼容性，目前的版本仅支持 CPU 转换，所以速度确实慢些⚠️（测试 R5-3600 的 CPU 一分钟音频转换时长30s，而测试 RTX 2060 显卡仅需 3s），仅支持 64位系统

不过这个软件因为考虑到硬件方面的差异，对音频做了切分（每个切分片段时长 1 分钟），所以会影响一些句子的识别

最终转换结果的话，会自动保存为软件目录的「音频转换结果」文件夹下的 txt 文件

这款软件你可以到原作者公众号下载，为防失效阿虚也做了搬运，在阿虚公众号后台，发送以下关键词，就可以得到不限速下载地址了：

“

语音转文字

”

大家都知道是公司训练出来的大型语言模型，而其训练的模型其实远不止此

去年年底，开源了其经过 68 万小时多语言（99种）数据进行训练得出的大规模的语音识别模型——：

在现如今的综合离线的语音识别工具中，他应该是目前最好的选择！

当然，只有预训练模型我们是无法使用的，官方的部署运行方法对于多数人来说也是过于复杂，但好在已经有开发者为我们一般人开发了带界面的软件，只需要下载软件+再导入模型即可使用了

为应对不同的语音转录需求，一共推出了 tiny、base、small、、large 5档模型，具体自己电脑能跑的动哪个模型得看显卡性能

同时为了方便理解，下面的相对速度用秒数表示（不代表实际时间），在相同的硬件条件下，处理音频所需时间

模型大小所需显存相对速度

tiny

39 M

~1 GB

32秒

base

74 M

~1 GB

16秒

small

244 M

~2 GB

6秒

769 M

~5 GB

2秒

large

1550 M

~10 GB

1秒

由于的中文数据较少，如果转录的音频是中文，那么至少要用到模型，才能保证绝大多数正确

7.1

（Win）

地址：

如果你访问困难，建议了解

下载后，将模型文件放入软件的 model 文件夹中，运行软件会让先让你选择模型，反正就是根据自己电脑性能能跑 large 就 large，不能就依次、small…往下（当然如果你的音频太长，还得自己考虑处理时间）

不过由于支持 GPU 硬解，转录速度还是非常快的，阿虚测试 4 分多钟的音频，使用模型，几十秒就处理好了

# AI资讯 # 腾讯阿里 # 自然语言处理 # 语音识别 # 阿里 # 阿里金融

文章版权归作者所有，未经允许请勿转载。

chatgpt会取代web工程师吗 chatgpt真的可以替代程序员吗 ChatGPT能替代程序员吗

fengdao

155 0

阿里回应研发类chatgpt机器人中国版ChatGPT真要来了？BAJT罕见集体发声！

fengdao

146 0

人工智能chatgpt4.0问答阿里AI千问智能聊天app官方版 v1.0.4

fengdao

158 0

常用ai工具 2023年最新300+AI工具汇总

fengdao

156 0

语音助手接入chatgpt 如何实现一款接入chatGPT的智能音箱

fengdao

164 0

可以和ai聊天的软件你咋还不知道ai聊天对话应用软件有什么

fengdao

154 0

暂无评论

暂无评论...

ai全自动剪辑软件6.1 永久免费离线免费无限用！狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别

做ppt的ai工具 3 小时 → 30 分钟，6 款 AI 工具，让你飞速做好 PPT丨有用功

ai提示词工具 AI绘画教程 & AI绘画提示词工具（OPS） | 可视化编辑｜自动翻译 | 专

相关文章

暂无评论

ai全自动剪辑软件6.1 永久免费 离线免费无限用！狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别

做ppt的ai工具 3 小时 → 30 分钟，6 款 AI 工具，让你飞速做好 PPT丨有用功

ai提示词工具 AI绘画教程 & AI绘画提示词工具（OPS） | 可视化编辑｜自动翻译 | 专

相关文章

暂无评论

ai全自动剪辑软件6.1 永久免费离线免费无限用！狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别