一、简单一点的就是,文本转语音。比如,电影解说。这个场景,用讯飞,或者微软的文本转语音都能实现。
这种方式,只能使用预设好的那些声音。最多,就是实现到多人配音的效果。
二、
复杂一点的,就是声音复刻。比如,复刻原视频中,人物角色的音色,重新用文本转语音生成配音。
用过阿里云的cosyvoice,复刻声音,然后再去文本生成语音。但是,效果太差了,不理想。
三、
最难的是,视频人物的嘴型,需要根据配音的来。
对于第二点和第三点,想要实现好一点的效果,是不是必须要人工上?实操的步骤是怎么样的呢?
不要用ai给我回复
最佳答案

付费的克隆 你是是逗哥,免费的试试花儿不哭大佬的这个GPT-SoVITS 关于第三点我感觉你陷入了一个误区,你为什么一定要出现人物直接讲话,难道画面不能避开他吗?有他原声的地方 你再让他出现啊 ,没有就用别的画面替代。比如他跟A说话,你可展示A在听,或者他说的什么,你可以展示对应的画面,为什么一定是他在口播? 通过百度网盘分享的文件:GPT-SoVITS 链接:https://pan.baidu.com/s/1MTeiKQHbboTwTMUFc5s2Lg 提取码:evb ...