ai全自动剪辑软件6.1 永久免费 离线免费无限用!狠狠白嫖阿里、百度、字节等大厂+ OpenAI开源语音识别

AI资讯1年前 (2023)发布 fengdao
26 0

阿虚同学

读完需要

15

分钟

速读仅需 8分钟

关于语音转文字这个话题,阿虚已经是几年之前了

除了不少工具失效,如今又有了新的工具出现,再加上经常被大家问到,且阿虚自己也有这个需求(经常需要帮我妈转换视频成文本她方便学习),所以今天就打算再来替大家研究一下2023年的语音转文字方案

虽说是语音转文字,但实际上视频转文字也可以划到同一个问题场景之下——毕竟随便就能找到软件把视频转为音频

阿虚很早之前就推荐过(点击即可查看)

除此之外,视频生成字幕其实也可以归属于同一类问题(带时间轴),不过这个问题更多应该是视频制作者才会需要,(点击即可查看),这里就不赘述了

阿虚这篇文章还是就准备再来重新介绍一下2023年值得推荐的语音识别工具(按提供服务的厂商进行介绍)

最重要的各平台识别质量对比,请见文末

网易

1.1

网易见外(网页)

地址:

网易见外是网易人工智能事业部旗下的 AI 视频翻译产品,阿虚印象中好像是国内最早一批上线的此类服务了

而天地良心的,从2017年9月上线到现在,这个平台一直都是免费的!虽然这期间有过平台将下线的流言,但事实上直到如今依旧可以正常使用

你只需要登录你的网易账号,就可以享受这个平台诸多的「AI 智能转写」服务,从最开始主打的视频翻译,到如今已经支持视频转写、字幕翻译、文档翻译、语音翻译、语音转写、会议同传、图片翻译整整8大功能了

如果我们需要将视频或者音频转成文字,那么需要使用的是「语音转写」这个功能

单次仅允许<500M,mp3、wav、aac 格式的音频文件,支持中文或者英文,另外据悉每天上传的音频不能超过 2 小时

阿虚测试了一个4分多钟的音频,大概不到1分钟就转写好了,转写好之后可以在线预览:随着音频播放会加粗高亮显示实际转写出来对应的哪一句

如果你发现整个文档有某些词都统一转写错了,还可以点击顶部进行「词汇替换」,同时这里也可以进行「语气词过滤」

确认没问题之后最后可以在右上角导出为 Word 文件,使用起来可以说是相当便捷简单的

1.2

有道云笔记(安卓/iOS)

地址:

这里还不得不说网易其实在语音识别这块做的挺良心,除了有完全免费的网易见外,旗下的有道云笔记的实时语音识别竟也是完全免费的

如果你需要边录边转写,那有道云笔记或许就是一个非常不错的选择,只需要登录有道云笔记,点击语音速记 » 再点击转文字就行了

识别完成之后,可以把识别结果导出为存文字笔记(存文字,基本上和 TXT 差不多)

腾讯

2.1

腾讯云语音识别(网页/微信小程序)

地址:

除了网易,腾讯其实也提供了语音识别体验服务,打开上述链接点「立即使用」,登录腾讯云账号即可

目前的话免费额度还是相当良心的,不仅支持上传录音文件,更是支持实时语音识别,对个人偶尔使用我觉得这个每月额度完全足够(实在不够你可以弄多个账号嘛)

计费规则可能会变动,最新计费说明见官方文档:

找到功能体验,我们就能上传文件进行识别了,目前识别语言支持普通话、粤语、上海话、英语、日语,并且还有非常强大的一点是支持分离说话人,即如果音频中有多个人说话,将会自动区别开!

具体识别结果要不要时间戳可以自行选择,导出的识别结果是 txt 文件

在网页端扫描二维码之后,即可在手机端的微信小程序进行实时语音识别(每月5小时)

2.2

ai全自动剪辑软件6.1 永久免费_ai全自动剪辑软件6.1 永久免费_ai全自动剪辑软件6.1 永久免费

字幕组机翻小助手 Tern(Win/Mac)

地址:

如果你访问困难,建议了解

除了上述从网页端使用腾讯云语音识别,我们也可以利用字幕组机翻小助手这款开源软件来进行调用,使用没啥难度,把文件拖进去点击开始识别即可

当然是用前需要进行比较繁琐的参数配置,这里的话由于软件内有提供详细的步骤,阿虚就不在此赘述了

其实从下图可以看到我们还可以配置阿里云、讯飞、IBM等服务商的语音识别服务,但除了阿里云、腾讯、IBM 其他都是收费才能使用,并且 IBM 注册配置稍显麻烦,中文识别肯定没有国内服务商做的好,阿虚也不是很推荐去折腾了

阿里巴巴

3.1

(Win)

地址:

如果你访问困难,建议了解

这款开源免费的软件,其实也在之前那期文章就介绍过,通过这款软件我们可以几乎免费使用阿里云的语音识别引擎,个人每天有 2 小时的语音识别免费额度

计费规则可能会变动,最新计费说明见官方文档:

只不过是用这款软件的步骤比较繁琐,需要我们手动先去申请阿里云的相关 API,配置到软件之后才能使用

具体 API 的申请&配置,作者做了长达10分钟的超详细视频教程,阿虚便不在此赘述了:

▲扫码即可查看

总之等你花大把时间把OSS、语音识别引擎的参数都配置好之后,就可以轻松使用软件了

字节跳动

4.1

飞书妙记(全平台)

地址:

飞书妙记则是这几年新晋互联网巨头字节跳动(抖音的公司)旗下产品,目前也是非常良心的完全免费

使用方法异常简单,注册登陆后,直接上传音频或者视频就能进行识别转换了,目前支持普通话、英语、日语

支持识别不同说话人,同时能自动添加标点符号和章节分段,识别完成之后可在网页有上角导出为 TXT 或 SRT 格式

除了网页端,在飞书APP上搜索安装飞书妙记应用之后,也可以快速在移动端录制音频进行识别(在录制时就会实时展示转写结果)

4.2

剪映(Win/安卓/iOS)

然后说一下在之前那期文章里介绍过的剪映——这个其实也是抖音旗下产品

因为和飞书妙记的产品线不一样,一个是辅助会议记录,一个是为了降低用户发布抖音门槛,所以决定了两款产品未来的收费机制可能会不一样(剪映可能会一直免费下去,毕竟其已经区分了普通版和专业版)

之前还需要把音视频传到手机APP上进行字幕生成,现在也可以在版剪映上进行操作了(实测目前网页版还不能进行此操作):

使用方法也很简单,打开软件点击 » 开始创作,把音视频文件拖入到素材库 » 再将音视频拖入到剪辑轨道

然后切换到文本功能,点击智能字幕,再点击开始识别,即可轻松进行语音识别了(最大支持 2 小时且不限次数使用)

转换完成之后我们在右上角就能进行导出,可以仅保存字幕文件为 TXT 或者 SRT 文件

同花顺

5.1

悦录(网页/安卓/iOS)

地址:

悦录是早在前几年阿虚就有补充推荐的免费 AI 语音转文字工具,实际是浙江核新同花顺网络信息股份有限公司(成立于1995年,于2009年在深交所上市,是国内第一家互联网金融信息服务行业上市公司)旗下产品

时至如今依然每日可免费转换 3 个小时的普通话,200小时音频的云端存储空间(相当于云盘),另网站和APP均支持导入wav、m4a、aac、mp3、amr、wma 等音频格式和 mp4、3GP、mkv、flv、mov、wmv、mxf、avi 等视频格式(单个音视频文件限制<500M)

同时支持区分说话人,还对金融财经、科技领域的音频有进一步的识别支持,并且支持提前输入音视频内的关键词来提高识别准确率

ai全自动剪辑软件6.1 永久免费_ai全自动剪辑软件6.1 永久免费_ai全自动剪辑软件6.1 永久免费

识别完之后可以在线查看,可以导出为 word 或者 txt,同时可以自行选择带不带时间戳

虽然不支持实时语音识别,但可以通过APP录音之后快速进行识别转换

百度

6.1

百度飞桨 (Win)

地址:

既然网易、腾讯都介绍了,人工智能这块又怎么能少的了国内最早在此领域发力的百度?

早在2017年5月,百度飞浆就开源了旗下语音方向的模型库——

模型库有什么用呢?之前研究过的小伙伴应该都明白,AI 之所以能理解人类的意思,实际都是靠不断喂数据+反复匹配来提高吻合率的——AI 语音识别这一块也是一样

简单来说,根据百度飞桨官方文档搭建运行环境、安装依赖、下载模型库、编译源码之后,我们就能在本地离线进行语言识别了——不过自然这对90%的人来说都太难了

公众号@万能君的软件库基于 开发了普通人也能一键使用的语音转文字工具,最关键的是可以离线无限次使用!

考虑到兼容性,目前的版本仅支持 CPU 转换,所以速度确实慢些⚠️(测试 R5-3600 的 CPU 一分钟音频转换时长30s,而测试 RTX 2060 显卡仅需 3s),仅支持 64位系统

不过这个软件因为考虑到硬件方面的差异,对音频做了切分(每个切分片段时长 1 分钟),所以会影响一些句子的识别

最终转换结果的话,会自动保存为软件目录的「音频转换结果」文件夹下的 txt 文件

这款软件你可以到原作者公众号下载,为防失效阿虚也做了搬运,在阿虚公众号后台,发送以下关键词,就可以得到不限速下载地址了:

语音转文字

大家都知道 是 公司训练出来的大型语言模型,而其训练的模型其实远不止此

去年年底, 开源了其经过 68 万小时多语言(99种)数据进行训练得出的大规模的语音识别模型——:

在现如今的综合离线的语音识别工具中,他应该是目前最好的选择!

当然,只有预训练模型我们是无法使用的, 官方的部署运行方法对于多数人来说也是过于复杂,但好在已经有开发者为我们一般人开发了带界面的软件,只需要下载软件+再导入 模型即可使用了

为应对不同的语音转录需求, 一共推出了 tiny、base、small、、large 5档模型,具体自己电脑能跑的动哪个模型得看显卡性能

同时为了方便理解,下面的相对速度用秒数表示(不代表实际时间),在相同的硬件条件下,处理音频所需时间

模型大小所需显存相对速度

tiny

39 M

~1 GB

32秒

base

74 M

~1 GB

16秒

small

244 M

~2 GB

6秒

769 M

~5 GB

2秒

large

1550 M

~10 GB

1秒

由于 的中文数据较少,如果转录的音频是中文,那么至少要用到 模型,才能保证绝大多数正确

7.1

(Win)

地址:

如果你访问困难,建议了解

下载 后,将 模型文件放入软件的 model 文件夹中,运行软件会让先让你选择模型,反正就是根据自己电脑性能能跑 large 就 large,不能就依次 、small…往下(当然如果你的音频太长,还得自己考虑处理时间)

不过由于 支持 GPU 硬解,转录速度还是非常快的,阿虚测试 4 分多钟的音频,使用 模型,几十秒就处理好了

© 版权声明

相关文章

暂无评论

暂无评论...