Whisper JAX:视频声音转文字工具,支持繁体中文且速度超快

Whisper JAX 是 OpenAI 的 Whisper 模型优化实践范例,它可将用户的即时录音、音频档或是 YouTube 在线快速识别并转换为纯文本格式,也就是使用 AI 技术的视频声音转文字工具,支持繁体中文。 这项服务使用 Whisper API 大家或许不陌生,我之前在「Good Tape 录音转逐字稿自动化工具,支持中文在内等多国语言」介绍的服务就是使用这项技术,如果你是 Mac 用户还能尝试另一个「MacWhisper」免费应用程序,这些工具都能将录音或影片转为文字逐字稿, 另外也有加入时间戳记功能,在处理类似工作时可以大幅节省时间。

Whisper JAX
Whisper JAX

依照说明,Whisper JAX 在 JAX 上运作,后端为 TPU v4-8,相较于 A100 GPU 的 PyTorch 速度快了 70 倍以上! 可说是目前最快的 Whisper API,我测试一段大约三分半的 YouTube 影片,转换为文字逐字稿的过程只花费不到五秒,即使更长的录音档或视频依然能在相当短的时间内完成,而且准确度很高。

必要时还能搭配 ChatGPT 进行修改,例如将转换的全文加入标点符号,这部分以 AI 进行操作又能省下可观的时间,剩下的就只要校稿即可,若有需要也能选择加入时间标记、翻译其他语言。

Whisper JAX 是 Hugging Face 开发的工具,托管在 Hugging Face 平台做为范例,用户可以免费使用,不过尖峰时间可能会需要排队,排队序列会显示于示范页面右上角,等待顺位到了以后才会开始进行处理,如果不想要花时间等待也可以建立自己的 Inference Endpoints。

Whisper JAX
https://huggingface.co/spaces/sanchit-gandhi/whisper-jax

值得一试的三个理由:

  1. Whisper JAX 拥有绝佳的速度和识别效率,三分半的影片转为文字只需不到五秒
  2. 转换文字准确度极高,可搭配 ChatGPT 进行自动标点符号的加入或翻译
  3. 由 Hugging Face 开发,支持即时录音、上传音频或导入 YouTube
本条目发布于。属于软件分类,被贴了 标签。作者是

关于有个狸

2005年开始的一名站长,从事网站策划、运营,早期一批扎根阿里妈妈、Google Adsense的一员,目前司职前端与产品设计。

发表回复