视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩
基于OpenAI Whisper模型
杨净 发自 凹非寺
量子位 | 公众号 QbitAI
现在剪视频,已经可以精准到每一个字了!
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/f9422e076146d75ffb4d52c15d3c9d04.gif)
只需点击你要删减或者要留下的单词,AI分分钟都能给你整出新的视频来。
这操作,有点大爆炸功能内味了。老罗:打钱!
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/acb14c003a99f476b36100f3555a3323.gif)
不管是MV、访谈、电影片段各种类型视频,也不论有无字幕,通通不在话下。
网友们纷纷开始试玩了起来。比如让rick roll鬼畜起来~
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/b553e8b5cf3a81690fd3ee439dfa48ee.gif)
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/5a0f3e3e089eb45369de66941a82e720.png)
就连中文视频也能Hold住。实测Demo发现,它甚至直接翻译成了英文。
不过这也并不影响整个操作,毕竟背后模型是支持中文在内的多个语言的。
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/da5468b7a772c2e495af99d51e9d282e.png)
精准到每个字剪视频
只需三步,就可以轻松完成精准到字的视频剪辑——
上传视频、选择删减/留下的单词、下载视频。
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/f2b536375c79a24be1437df2c23bb7f7.png)
释出的有三个示例,烹饪的美食视频、小扎采访、以及「Just Do IT」……
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/234d31cb414e9f22aaacaf06d407a4d1.png)
当然你也可以自己试玩,各种语言都能识别。比如就以让子弹飞一段经典对白为例。
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/eaa6a5dc42d7bb278955fdb4a0e12d2f.png)
绿色代表保留,红色代表删除。你有三种选择:剪辑、选择所有单词、重新设置。
任意选择保留单词之后,就可以「Cut Video」了。此处选择两处跳脱的台词。最终只花了不到十秒钟就完成了剪辑。
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/7258cbeba6417c739e5a5ce61aa253fa.gif)
画面切换可以说是十分顺滑了~整个Demo试玩在T4上运行。
基于Whisper模型
这是个荷兰开发者Matthijs Hollemans在HuggingFace上基于Whisper开发的新功能。
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/791d05dac76290b0eb888d36613347cc.png)
Whisper是OpenAI于去年9月开源的语音识别神经网络,经过68万小时的多语言和多任务监督网络数据的训练,其鲁棒性和准确性接近人类水平。它可以进行多语言转录,以及其他语言将翻译成英文。
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/4c0143c8d380ae8748ccbcd2d6083d2b.png)
它是基于Transformer端到端实现架构,无需任何微调。输入音频被分成30秒的块,转化为梅尔倒谱(音频特征提取方式之一,log-Mel spectrogram),然后传入编码器。
![视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩](/wp-content/uploads/replace/fbdee6a2de82a85769f2ee910975418b.png)
好了,试玩Demo在此,感兴趣的旁友可戳:
https://huggingface.co/spaces/radames/whisper-word-level-trim
参考链接:
[1]https://openai.com/research/whisper
[2]https://twitter.com/mhollemans/status/1671812176842039296
- 开源=最强大模型!Llama3.1发布,405B超越闭源GPT-4o,扎克伯格:分水岭时刻2024-07-24
- 国内首批丨腾讯云上架 Llama 3.1模型,支持在 TI 平台精调和推理2024-07-24
- AI视频修复速度10倍提升,过曝变色也能逐帧搞定|美图国科大新算法2024-07-21
- 李飞飞创业:3个月估值破10亿美元2024-07-17