额……老铁们,我老字幕组组长了。
虽然咱是字幕组组长,但是咱早在2018年左右的时候搬运视频做字幕就不用手动听译打轴校对了,当时搬运油管视频已经可以直接用自动生成+机翻字幕录屏就能实现大概能简单看明白大意了。虽然凭借当时的水平没法成为正规可与外国频道合作的字幕组,但是搬运视频其实已经够用了。
PS:咱当时相中的外国频道是在顿涅茨克还是卢甘斯克来着,结果咱想和人家合作不光是因为咱本身没有俄语翻译这么简单,而是咱看对面的情况咱自己内部也不是很愿意,对面其实也不太稳定。所以最后自然是不了了之。
所以其实咱的字幕组其实只有英语和少部分日语的翻译能力,有日语翻译能力也没能力搞到片源,所以也没有后续压片之类的流程,因此其实咱这个字幕组最多只能在有图源的情况下进行少量汉化,写作字幕组读作汉化组。
不过虽然如此咱当年也和老爷子的看法基本一致,那就是未来字幕组汉化组这种重复简单的人力劳动一定会被AI取代,只是时间长短问题而不是会不会的问题,所以这期还是接着谈AI字幕的问题吧:
上期在 视频添加AI字幕并导出SRT(必剪API不需要上传到视频平台生成)
我们迭代到本地视频AI字幕生成(需要借助B站剪辑软件在线API)之后有评论指出可以用更简单的方法就能实现同样的效果,在咱疑惑了很长时间之后对面提供了关键词:剪映
所以咱简单尝试了一下
官网支持在线剪辑,然而点进去说不承认咱的是谷歌浏览器嗷
简介也就看一乐,对于咱这种早年就做UP的老鬼畜壬来说没啥可说的
AI剪辑的确降低了非编软件的门槛,发力新赛道,大量普及AI应用雀食让营销号战争后的B站yxh入门更容易了。
这里咱主要图这个软件的智能字幕,也就是AI字幕自动识别功能,希望通过这期找出和B站字幕API的区别
罐头素材可还行,罐头笑声吗
最高支持4K60,所以想玩8K的各位可以歇b了
最低配置要求:得益于出色的优化,即便在最低配置的环境下,您仍可较流畅运行并完成您的创作。
推荐配置在强悍的硬件性能支持下,我们能为您带来前所未有的创作体验,使创作更上一个台阶。
硬盘空间8 GB 可用磁盘空间 (用于程序安装、缓存和媒体资源存储)8 GB 或更多的可用磁盘空间 或 高速固态硬盘 SSD
显卡 GTX 900 系列及以上型号;AMD RX560 及以上型号;Intel HD 5500 及以上型号;显卡驱动日期在 2018 年或更新;2 GB GPU VRAM(核显共享RAM,包括在总RAM内) GTX 1000 系列及以上型号;AMD RX580 及以上型号;显卡驱动日期在 2018 年或更新;6GB GPU VRAM;显卡: Win11下驱动版本推荐472.12版本(2021年9月20日)或更新
显示器分辨率1920 x 1080或更高分辨率 或更高分辨率;HDR显示:推荐 600或更高标准
操作系统Win 7/Win 8.1/Win 10/Win 11 或更高版本,64位操作系统Win 10/Win 11 或更高版本,64位操作系统
处理器Intel® Core 第 6 代或更新款的 CPU 或 AMD Ryzen™ 1000 系列或更新款的 ® Core 第 8 代或更新款的 CPU 或 AMD Ryzen™ 3000 / 2000 系列或更新款 CPU
内存8 GB RAM16 GB RAM,用于 HD 媒体;32 GB RAM,用于 4K 媒体或更高分辨率
声卡与 ASIO 兼容或 Model与 ASIO 兼容或 Model
我看了一眼我最近刚被火绒救活的X58,还是决定直接先上了再说
问我干啥还能不运行怎么着,再说了有安全警告也没影响咱这机器之前扫出来4000多个病毒在里面蹦迪啊
安装
很快啊
毕竟好歹是6核12线的X58,不是老双核
环境检测:您低于最低运行配置要求的电脑可以流畅使用
我:彳亍
操作界面逻辑基本和必剪差不多,咱倒是好奇这个剪映是绑定谁家的AI,不会是抖音快手吧?
基本上从界面找AI字幕的方法大同小异
文本-智能字幕
然后很快啊,就识别出来了,这期咱是在咱一直想提取文案顺带好好做个字幕的留存的为数不多的任正非老爷子的访谈这个视频,简单实验一下效果
发现识别字幕过程中CPU有负载
GPU没有负载,所以判定大概率这个识别依然是在线识别,CPU负责把视频中的音频轨压制后上传
然后得到的字幕轨咱依然没有办法导出
好在和对应B站的必剪的工具一样,剪映也有一套独特的离线工具,看年代最近更新比B站的还早一些,看来应该是剪映先开放的AI字幕API
使用起来基本是全自动的
会自动打开最近使用的项目,然后选择里面体积最大的.JSON就可以转字幕了
这个过程通过GUI操作起来比B站那种还需要手动拖入的感觉好多了
最后会得到SRT字幕,到时候转ASS LRC SSA TXT啥的就是各位的事了,咱不能推荐什么在线工具因为可能失效
总之提取出来是这个效果的:
说实在的看起来比B站的字幕复杂很多,添加了字体和字号的定义还可以设置颜色
这里咱先不看字幕,简单看下断网使用的情况
果然识别不出来,说明这个流程和咱想的一样,提取音频上传在线识别,所以各位明白什么意思,如果视频里有什么不想让人听见的音频或者害怕文案被共享还是谨慎使用这种。
其实对于这种工况来说,我们更需要的是OCR字幕区域自动文字识别+打轴获取外挂字幕,然而这个软件是肯定没有
不过剪映的这个识别率也够高的了,当年节目中没有提供的字幕这里都能正确识别,基本很少出错
不过对于人名专业术语啥的基本还是处于一个人工智障的状态,这个只能说不能两全吧除非专门训练过AI,不然谁来也没辙,咱其实也没指望他们能准确识别,给时轴打准就行了
其实咱因为这么多年一直都在靠录像的暂停功能避免使用剪辑,就算剪辑也都是本地无损剪辑,所以除非对于字幕的需求比较高,不然一般不开非编软件,更别提云剪辑了,但是现在能调用AI的话还是有点看头的。
这里简单说下这个字幕的问题,相比B站的字幕这个字幕最大的问题就是它生成的格式比较复杂也比较乱,直接上传字幕B站识别不了恐怕不行
所以咱一开始想的办法是用Word打开去除所有的非汉字,然后发现这招不太行
字幕里的非汉字也被去除了
好在字幕的格式信息都是一致的,所以直接善用替换就解决了
最后咱得到了非常干净的文案,现在回过头来看也算是明白老爷子当年的思路了…………………………
[图片]
老爷子高瞻远瞩,现在回头看属实眼界非凡,所以关于这个视频咱希望各位有兴趣都去看看,至少可以读一下文字版:[面对面]任正非:再穷不能穷教师 [面对面]任正非:时下的华为
至于人工智能的普及咱现在是不要有什么疑虑的,未来肯定是要大规模应用于生产生活,所以说提高教育水平和科学素养非常重要。至于本文谈到的软件的字幕水平,可以认为其实这种弱AI都是大同小异,因为上期评论区说的那个事咱也上隔壁群问了一下,有什么AI是远远强于现在现有的这几家视频平台普遍应用的AI,然后关键词还真让我们问到了,叫,能听懂人名和专业术语。也是基于训练的,large模型的话要12g显存,1060最大能跑,所以咱在考虑最近要不要弄一张P40以上的显卡,或者等以后模型优化好了之后可以用10G以下显存跑了就上之前咱150包邮的P104-100试试,听说配置挺困难的不一定什么时候能更。
就这样,谢谢朋友们!
作者声明本文无利益相关,欢迎值友理性交流,和谐讨论~