这个效果非常可以,音频驱动说话人肖像视频生成模型:FLOAT未分类 / 作者: macdown.net 保真度很高,支持情感增强和控制,能调节情感表现的强度 一张源人物肖像图片+驱动音频,生成可以包含情感表现的面部动作并与音频同步的说话人视频 它解决了时间连续的视频生成、由于迭代采样导致速度慢这两个关键问题