这个效果非常可以,音频驱动说话人肖像视频生成模型:FLOAT

保真度很高,支持情感增强和控制,能调节情感表现的强度 一张源人物肖像图片+驱动音频,生成可以包含情感表现的面部动作并与音频同步的说话人视频 它解决了时间连续的视频生成、由于迭代采样导致速度慢这两个关键问题