在短视频创作领域,紧跟热点、分析爆款文案至关重要。但是利用第三方如轻抖、通义等只能逐条提取视频文案,效率低下,难以应对批量采集批量提取的大规模数据要求。接下来我将分享我的工作流,如何通过本地部署 利用 whisper 或 sensevoice 实现日均提取抖音/小红书/B站视频号等视频文案 2 万+条。

整体工作流如下

1.视频作品采集:使用RPA或者自己开发或者第三方工具等都可以,目的就是通过策略或者手动筛选获取到自己的对标视频
2.视频作品无水印解析及下载: 本地或者服务器部署开源项目,解析目标平台如抖音、小红书、B站等的视频链接,获取无水印视频地址并下载。
3.音频转换: 利用 ffmpeg 工具将下载的视频文件转换为音频文件,为后续语音识别做准备。
4.语音识别: 使用 whisper 或 sensevoice 等语音识别引擎将音频文件转录为文本。其中,sensevoice 速度更快,而 whisper large 相比准确率更高,可根据实际需求选择。
5.数据整理与AI重写等: 将识别出的文案信息根据实际需求使用AI进行清洗和格式化,导出为可供分析的数据格式
这套流程效率极高。以使用sensevoice为例,在我的 4070Ti super 显卡上,处理一条抖音小红书视频通常只需3-5秒,B站视频较长30秒内也可以转录完成。在开启并发的情况下,单日最多处理约2.6万条各类平台视频,总计超1000小时的数据。

硬件要求

….

本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。

最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。 若排除这种情况,可在对应资源底部留言,或联络我们。

对于会员专享、整站源码、程序插件、网站模板、网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。

如果您已经成功付款但是网站没有弹出成功提示,请联系站长提供付款信息为您处理

源码素材属于虚拟商品,具有可复制性,可传播性,一旦授予,不接受任何形式的退款、换货要求。请您在购买获取之前确认好 是您所需要的资源