
Hibiki
Hibiki是一个Kyutai Labs开发的一个用于流式语音翻译(也称为同步翻译)的模型。与离线翻译不同,离线翻译需要等待源语句结束后才开始翻译,而 Hibiki 能够实时积累足够的上下文,以逐块生成正确的翻译。用户在讲话时,Hibiki 会在目标语言中生成自然的语音,并提供文本翻译。
Lumiere是谷歌发布的一个文本到视频扩散模型,于2024年正式发布。这个模型能够直接生成全帧率、低分辨率视频,通过训练海量文本和视频数据,可以将文字描述直接转化为高质量、真实、多样且连贯动作的视频。适用于多种内容创作和视频编辑应用,如图像到视频、视频修复和风格化生成。
Lumiere是谷歌发布的一个文本到视频扩散模型,于2024年正式发布。这个模型能够直接生成全帧率、低分辨率视频,通过训练海量文本和视频数据,可以将文字描述直接转化为高质量、真实、多样且连贯动作的视频。适用于多种内容创作和视频编辑应用,如图像到视频、视频修复和风格化生成。
Lumiere的时空扩散U-Net架构可以生成整个视频的所有时间段,提高动作连贯性和时间一致性。它采用Multidiffusion优化方法将视频序列分割成多个时间窗口,并在每个时间窗口内进行空间超分辨率计算,优化内存需求。这种模型在文本生成视频领域带来了革命性的变革,提高了生成视频的质量和动作连贯性,为视频生成领域带来更多可能性。
Lumiere官方生成视频效果演示:
https://img.pidoutv.com/wp-content/uploads/2024/05/1706085410-Lumiere-1.mp4