【产业要闻】Rhymes AI推出革命性文本图像视频生成模型Allegro-TI2V

标题摘要内容

Rhymes AI近日发布了其革命性文本-图像到视频生成模型Allegro-TI2V，这一突破性技术为数字内容创作开辟了全新的疆界。作为生成式AI的最新进展，Allegro-TI2V为创意工作者提供了前所未有的视觉叙事工具，标志着AI技术在创意领域的巨大潜力。

Allegro-TI2V在多个技术规格上表现卓越，支持高达79.2K的上下文长度，相当于88帧视频。其输出分辨率为720×1280像素，视频生成速度为每秒15帧，用户还可以选择插值至30FPS，以满足不同应用场景的需求。这款模型的架构非常复杂，包含了1.75亿参数的VideoVAE和28亿参数的VideoDiT模型，使其能够精准捕捉用户输入的文本提示和初始图像的本质。此外，Allegro-TI2V还支持多精度模式（FP32、BF16、FP16），在BF16模式下，生成视频仅需9.3GB的GPU内存，极大降低了硬件需求。

Allegro-TI2V的创新之处在于其引入了两种全新的生成模式:后续视频生成:基于文本提示和初始帧，创建连续的视频内容。这种模式能够帮助创作者轻松生成符合设定主题和风格的视频。中间视频生成:在给定视频的首尾帧的基础上，生成自然过渡的中间帧，打破传统视频编辑的时间与空间限制。

这些创新模式使得Allegro-TI2V能够为创作者提供更高效、更灵活的视频创作方式，大大提升了创作效率和质量。

Rhymes AI在Apache2.0许可下发布了Allegro-TI2V，使得研究人员、开发者和内容创作者能够更容易地访问和使用这一技术。用户只需安装Python3.10+、PyTorch2.4+和CUDA12.4+，便可轻松上手并快速体验这一先进技术。

Allegro-TI2V的应用前景极为广泛，从电影制作、游戏开发到数字艺术和创意原型，都能充分发挥其强大的生成能力。根据开发者提供的数据，单个H100GPU在约20分钟内即可生成6秒的视频，而使用8个H100GPU配置，生成时间将缩短至3分钟，显著提升了视频内容创作的效率。

标准信息