ai字幕翻译软件【教程】实时字幕/文本转译 — 手机端

AI资讯2年前 (2024)发布 fengdao

135 0 0

23.04.17 新增：

➣ 高阶版：视频转文字助手

点击直达链接>>

视频转文字助手能够轻松将视频中的语音转换成文字，帮助用户方便快捷地获取视频信息，同时也可以帮助听力障碍者更好地理解视频内容。

适用场景：

视频转文字助手的使用场景非常广泛。如企业可以将会议录音转换为文字，以便于后续整理和分析；教育机构可以将教学视频转换为文字，方便学生回顾和学习；同时这款软件也可以应用于字幕制作等诸多领域。

打开方式：

下载打开软件后在主界面选择【视频添加字幕】功能点击进入即可；

识别效果：

视频导入后点击字幕识别，等待识别后即可生成时间戳和对应字幕；

点击【字幕设置】还可以调整字幕字体、类型等设置；

最后设置完成确认无误后点击导出即可~

相关内容：

22.04.16 新增：

➣ 基础版：小米闻声

目前MIUI内置有小米闻声功能，可实现普通话或英文的实时识别。但是只有识别，不支持翻译。但其优点是可以生成对话内容文本并导出到小米便签里。

适用场景：

对于听障用户来说，可用于观看中文视频、日常对话、打电话（小米AI通话也有这个功能）、上网课等需要语音识别的场景。听力正常的同学也可以上网课时用来辅助记录网课内容。

打开方式：

设置里直接搜小米闻声即可。

识别效果：

可以切换识别引擎（讯飞或小爱同学），两者速度和精准度都不错。

相比视频原音，会稍微有半句(0.5～1秒左右)的延迟➣ 进阶版：小爱同学 – AI字幕

AI字幕在保留了小米闻声上述所有功能的前提下，还增加了实时外文翻译功能，可设置中英文字幕单一/同时显示，并且同样也支持将所有识别的文本快速导出到便签。

适用场景：

除上述小米闻声的功能外，还可用于观看无字幕或无中文字幕的英语视频。（即俗称的“生肉”）

打开方式：

打开或语音唤出小爱同学，输入或说出“AI字幕”即可。

ai字幕翻译软件_字幕翻译软件安卓_字幕翻译软件有哪些

识别效果：

中英对照识别+翻译速度还是相当快的，和视频内容相比，基本上也只有半句话的时间差。

原内容：

目前已知的能够实现异步或接近同步字幕的比较多，实时生成双语同步字幕的软件寥寥无几。

1.实时字幕技术难点

对于机器来说，要想通过视频生成字幕，需要经过声音读取、神经网络算法（包括对音频分析、过滤、转换、调整、修正、输出等）…以及到最后显示的过程，每一步都需要一定耗时。虽然在理论上可以提升到很快，但现实情况下花的时间都要更长，对神经网络算法的性能也是巨大考验。如果是在线播放或直播，对机器运算压力也更大，更容易造成延迟。

以为例，视频实时字幕技术的难点体现在：

2.现有的字幕方案（PC）

目前已有字幕生成方法基本都是在PC端进行，包含通过机器算法或手动生成字幕文件或对已有字幕翻译的情况下满足观看需要，包括传统字幕和新型自动字幕。具体体现为：

① 字幕文件（传统模式，多为人工、人机合作）

② 压制字幕（机器翻译、人工校正）

常见的如柚子木、远鉴字幕组等等，成员各司其职负责翻译、打轴、校正、压制等工作。

③ 机器学习+神经网络算法生成字幕

主要是基于AI技术和算法，DNN（深度神经网络技术）、/ 网络和粗粒度建模单元等，实现机器自动识别。比如：

比如讯飞旗下的听见字幕、、绘影字幕、字幕通、牛片网等等。（暂未做考证，这些网站不一定是基于上述技术，但总体特征基本类似）

听见字幕

（已停更）如之前B站有位up主在建立的开源项目「团子翻译器」。当然，这不属于语音识别而是OCR的范畴，但异曲同工，毕竟都是为了方便观看和理解视频内容。

团子翻译器部分截图通常情况下若视频语言在支持的语种范围内，在作者将视频上传完一段时间后服务器就会自动识别生成字幕。用户播放时再直接读取已生成的识别字幕并显示，显示时有种进度条跃进的感觉；并且，如果仔细观察的话可以发现有时字幕会提前语音半秒左右，进一步说明了系统会预读字幕。

这也是为什么有的人在看视频发现字幕特别准，而有的人看到的机翻字幕却一塌糊涂的原因，因为前者大部分是经过人工二次核验校正了。如讯飞和微软主要面向企业（会议办公类）；面向网红博主，且需要使用普通延时、官方语言，所以普及度还不够高。

直播字幕功能3.在手机上实现字幕功能

以上这些方法都是在PC端进行，根据已离线的视频资源，通过在人工、本地程序或云端来识别、生成字幕，并不是根据正在播放的视频同步生成。（即对用户正在观看的网页、客户端无字幕视频生成字幕）

其实如果能让听写软件实现对识别文字保持悬浮字幕状态（比如音乐软件的悬浮歌词形式），并在需要的时候保持后台运行，理论上就可以临时作为一个字幕翻录软件。但是目前貌似还没发现这方面比较完善的软件（甚至demo），基本都是单独的语音听译工具（语音转文字）。

基于目前拥有的资源条件，通过与听写软件（分屏）组合或许可作为一种解决方法。

方法（一般性）适用于：

字幕翻译软件安卓_ai字幕翻译软件_字幕翻译软件有哪些

观看无字幕视频、新闻、网课时；尤其对听力障碍人士比较有帮助。外语水平一般，观看无字幕影视时；周边环境不适合播放声音时；说话人大部分时间都在讲方言听不懂时；网课笔记辅助工具；其他有字幕需求的场景。

tips：一般对语音标准（中英）、语速适中或偏缓、新闻类视频效果最好。

软件准备：

功能选择：

两个软件支持的语言很多，讯飞主要是对普通话和几个周边国家语言以及我国部分方言的识别，谷歌的则主要面向英语等国际语言。

由于语言种类较多，这里就不全部测试，只拿几个典型的测试看一下效果。

效果测试：

上下分屏

左右分屏

1.“讯飞语记” – 普通话识别

2.讯飞语记 – 中译英

3.讯飞语记 – 中译俄

4.讯飞语记 – 英译中

5.实时转写（）- 英语识别

方案评价：

识别速度上，一般都会稍微慢一句，原因同上面分析的一样。虽然在理论上这个时差可以做到更低，但由于网速、硬件处理、响应速度、说话人语速（断句）等因素导致延时或滞后显示。准确性方面，一般软件针对本国第一语言（如普通话和标准美、英语）的转录最准，翻录准确性则与调用的翻译引擎或相关API（如有道翻译、等）以及相关识别算法有关。4.关于小米闻声

在系统中，内置了小米闻声功能（基于讯飞听见和小爱同学两个可选识别引擎），主要是为了方便听障人士进行无障碍沟通交流。

在这里可以借用一下，通过分屏也能实现上述“临时字幕”的功能，普通语速断句较准。

B站实测效果（有小瑕疵，但大部分都挺准确）

不过可惜的是，小米闻声（由于产品设计初衷只是为了日常交流）所以仅对标准普通话识别效果较好，相比较而言更适合用来看官方视频，比如新闻。

5.总结

其实理论上做到实时字幕是完全可行的，但由于目前的：快速准确响应（技术）、社会对听障人群的关注度（人文关怀）以及大众生活场景的需求量（市场）等暂时还不够充足，对领域发展形成了一定程度上的瓶颈和动力缺乏，暂时还没有相对普适的、面向大众的解决方案，但可以相信该类应用也会很快出现。