要闻
图森未来发布图生大模型“Ruyi”并开源Ruyi-Mini-7B
时间:2024-12-18 17:16
图森未来于12月17日宣布推出其首款“图生视频”大模型——“Ruyi”,并正式开源了Ruyi-Mini-7B版本,供用户在huggingface平台下载体验。
Ruyi大模型以其在帧间一致性、动作流畅性、色彩和构图的自然和谐而著称,为视觉叙事开辟了新路径。特别针对动漫和游戏场景的深度学习,使其成为ACG领域的理想创意伙伴。
该模型基于DiT架构,由Casual VAE模块和Diffusion Transformer两部分组成,前者负责视频数据的压缩与解压,后者负责视频生成。Casual VAE模块将空间分辨率压缩至1/8,时间分辨率压缩至1/4,每个像素以16位BF16格式表示。
DiT部分采用3D全注意力机制,空间上使用2D RoPE进行位置编码,时间上采用sin_cos编码,通过DDPM进行训练。模型总参数量约为7.1B,训练使用了约200M视频片段。
图森未来曾是自动驾驶领域的领军企业,但2022年的高层权力斗争导致与Navistar International的合作破裂,公司业务陷入困境。2024年1月,图森未来宣布退市,并与执行主席陈默签订合作协议,决定退市并注销A类普通股,随后转型进入消费级市场。Ruyi的发布标志着图森未来在新领域的探索和尝试。