如何运用免费工具转写视频字幕
为方便普通用户使用,有大神在 github 上推出了 图形化工具,如此一来,用户不必掌握复杂的命令行指令也能轻松使用 faster-whisper 的模型完成视频字幕的转写,无论是制作视频还是翻译字幕的效率都能得到极大提升,以下是具体操作步骤。
有关 faster-whisper
根据 faster-whisper 的 github 页面简介可知:它是一款在 OpenAI 推出的开源高精度语音识别模型“Whisper”基础上重新开发的第三方版本,它号称运行速度最多能提高到 Whisper 的 4 倍。1
前期准备
- 在 FFmepg下载页面 下载并安装
FFmpeg
; - 在 faster-whisper-GUI下载页面 的
asset
板块下载最新版本的安装程序,(注意:不要下载带有“source code”字样的文件,需要下载的是后缀 为“exe”的文件,如 github 下载速度较慢,可尝试将链接发到手机,速度或许会快一些,手机端下载完成后再将 exe 文件传回电脑); - 右键单击下载完成的安装程序,选择
以管理员身份运行
,将faster-whisper-GUI
安装到电脑上; - 在 huggingface 网站搜索
faster whisper
字样,选择并下载所需模型(model)- 需要指出的是,模型存在多种细分类别,如果电脑性能较差,选择下载以
tiny
、base
、small
结尾的模型;如果电脑性能优异,可以下载以medium
和large
结尾的模型。 - 另外,有的模型只包括特定语言种类,上传者会将语言代码附在最后,可参考 维基百科对于语言代码的简介,如果下载的通用模型不能满足你的需求,不妨试着下载特定语言种类的模型,或有意外之喜。
- 一般来说,模型越大越新,转写精度就越高;
- 需要指出的是,模型存在多种细分类别,如果电脑性能较差,选择下载以
- 可以在软件根目录下创建一个
model
文件夹,将下载好的模型文件放到里面。
具体操作
- 需要注意的是,每次打开
FasterWhisperGUI
时都需要以管理员身份运行,也可在右键菜单中选择属性
→兼容性
→以管理员身份运行此程序
,以后只要双击即可打开; - 在左侧边栏选择
模型参数
,在使用本地模型
中选择下载好的模型文件所在文件夹,点击右上角加载模型
大按钮;如果你使用的是v3
模型,打开下方使用v3模型
选项;如果你使用的是英伟达(Nvidia)显卡,在处理设备
选项中选择cuda
; - 在左侧边栏选择
执行转写
,点击主页面右侧的+
号选择需要转写的视频文件,待软件提示转写完成,点击跳转到whisperX及字幕编辑
,点击字幕上方保存字幕文件
即可,可在右侧输出文件格式
选择需要保存的字幕格式; - 有时模型会错误识别片源语言,这时可以在左侧边栏选择
转写参数
,在音频语言
选项自主指定片源语言; - 可在左侧边栏左下角的
设置
中对软件进行自定义,需要注意的是 ,FasterWhisperGUI
每次更新都需要手动卸载旧版本,再安装新版本,可在卸载前于配置文件
选项选择备份当前配置
,在重装后选择加载配置文件
以保证设置的前后一致性。
最后
faster-whisper-GUI
还可以将人的说话声和其他环境音分离开或对字幕进行简单处理,请自行探索,在此不做赘述。
Footnotes
讨论
若阁下有独到的见解或新颖的想法,诚邀您在文章下方留言,与大家共同探讨。
反馈交流
其他渠道
版权声明
版权声明:所有 PKMer 文章如果需要转载,请附上原文出处链接。