兴中资讯

推荐

快手可灵PK Sora,五大场景全面评测 谁才是真正的“世界模拟器”

时间:2024-07-06 04:06

  也开源了DiT架构的混元文生图模型。

  今年以来,快手先后发布1750亿参数规模的通用大语言模型“快意”和文生图大模型产品“可图”。生成大模型可灵则在6月被推出,快手方面称,可灵能够生成大幅度的合理运动,模拟物理世界特性,生成的分辨率达1080p,时长最长可达2分钟。图生功能后续开放。

  在画面呈现上:

  1、动态效果。可灵的“镜头”普遍为前后向逻辑推进,Sora则更丰富。在“海浪撞击悬崖的无人机视图”一项,Sora画面的聚焦点在提示词中“有灯塔的小岛”,对整个环境进行环视,重点突出。可灵的镜头前后推进,小岛被设置在画面的最远端,没有重点突出小岛。不过,Sora和可灵对海浪的运动轨迹描述都很准确。

  
 

  2、视觉效果。这一项上,Sora和可灵表现都较为优秀。特别是在“东京街头的女士”画面呈现上,无论是对霓虹灯色彩的展示,还是潮湿地面反光的呈现,两个模型的画面光影表达都很准确。

  
 

  3、细节表现。但在“3D动画的小怪物”生成上,可灵的细节表现与Sora差别不大,特别是对小怪物蓬松毛发特性的捕捉和呈现上,很精准也很细致。

  
 

  4、连贯性和流畅度。Sora和可灵的画面表现均连贯、流畅,但稍有不同的是,对复杂场景的描述,Sora明显更优。特别是在“太空人”的画面生成上,可灵的画面只给出了太空人的正面特写,但Sora呈现了远近景的切换,添加了更多辅助元素,如飞船等。

  在功能和体验上,Sora与可灵生成的风格都更偏向模拟真实世界的场景。无论是科幻场景、自然风光、超自然画面、3D动画等都更加侧重写实的风格。

  在不同场景的适配上,Sora的能力似乎更胜一筹。在对“云端上读书的年轻人”的画面生成上,可灵的贴图感更重,素材间的融合度不高。语义的理解上,Sora和可灵都较为准确,特别是对提示词中不同主体的捕捉,都比较完整。

  
 

  不过,需要注意的是,可灵目前生成的长度均为5秒,与Sora的10至20秒相比,前者在复杂场景的叙述处理上会呈现一定的局限性。上线初期的可灵,功能较单一,风格切换等有局限性。

  此外,而在生成“10岁小女孩在羽毛球场比赛”时,小女孩手里的羽毛球拍变成了网球拍,且只有乒乓球拍大小,羽毛球也变成了网球。可见,实际生成时,可灵有时存在一些较大的偏差。

  值得注意的是,上述可灵由
 

  “肯定是超出预期的,而且最先推出来比肩Sora的是快手团队,还挺意外。”多位在互联网行业深耕多年的资深行业人士、资深产业分析师在接受随着快手“可灵”正式开放内测,社交平台上,已有不少博主、创早在2023年初,快手就启动了新AI战略,在最近几次财报电话会议上,快手联合创始人兼首席执行官程一笑也频频谈及快手自研大模型的研究及应用进展。不过,在很多人看来,快手更侧重于短和社交内容,而非专业的剪辑工具。此前的大模型竞争中,快手也并不是引人关注的第一梯队成员。

  此前,快手推出的通用大语言模型“快意”以及文生图大模型产品“可图”,在市场的关注度和影响力均相对有限。如今,“可灵”的出现,让国内大模型赛道看到了对标Sora“弯道超车”的可能。

  
 

  可灵生成的“3D动画的小怪物”

  在陈泽敏看来,抛开技术,快手“可灵”已经实现一部分绝对真实世界观的数据支持,AI对不同世界观的快速理解以及在上的反应,“这是我认为不可思议的”。

  在互联网产业深耕多年的某头部游戏公司高管李严认为,或许抖音未来也会推出类似的文生模型,但目前“可灵”的推出,最大的意义在于,它证明Sora的技术架构路线是可以被复现的,并且依托短平台的海量、优质过往数据,是可以后来居上的。同时,也说明之前Sora出现时业内对它“真实世界模拟器”的评价可能过高。

  相关研报指出,目前,国内大语言及多模态大模型正持续追赶海外主流大模型,模型能力逐步提升,带动下游应用发展。过去几个月,国内头部应用总访问量与海外头部应用总访问量差距逐渐缩小,看好未来国内应用快速增长的趋势。

  陈泽敏指出,虽然“可灵”抢跑为快手在文生赛道开了一个好头,但这条道路要持续走下去,仍需要很大投入。

  “未来如果‘可灵’能够延长到完整的15秒,并拥有连贯、不拖影、多元世界观融合的高质量,那一定会对短的生产方式带来变化,越来越多的创
 

  可灵生成的“云端上读书的年轻人”

  
 

  今年春节期间,OpenAI的文生大模型Sora横空出世,轰动整个科技圈,不少从业者将追赶Sora定为新的“小目标”。

  灼识咨询相关报告数据显示,全球AI市场的市场规模预计于2027年达到5624亿美元,中国AI市场的规模已由2018年的560亿元增至2022年的1942亿元,预计于2027年达到6448亿元。

  巨大的市场潜力之下,在文生大模型领域,Sora之外,Runway、Pika、Stable Video Diffusion等众多创业公司竞相角逐。

  不过,在陈泽敏看来,虽然越来越多的公司身处AI大风口,但未来留下的公司将越来越少,行业将进入边际余量的竞争中。

  “例如像英伟达这类确定性比较强的头部公司会更受资本关注,而对于软件服务这类公司,目前资本仍持怀疑态度。而在AI生成赛道,仍是‘头部玩家胜者为王’的模式,头部胜者的集中度更高,小公司不容乐观。”陈泽敏表示。

  
 

  虽然人人都想赶上AIGC这趟“时代列车”,但今年以来,AIGC领域的投资风向正在悄然发生变化。

  灼识咨询执行董事姜骁潇向商业化前景也成为市场和资本关心的问题。AI生成的内容,究竟能不能获得用户真金白银的买单,目前仍要画一个大大的问号。

  姜骁潇认为,目前来看,大模型行业正处在应用拓展阶段。在这个阶段,AIGC技术将被广泛应用于各个领域,但目前AIGC行业尚未完全实现成熟的商业化。

  “‘可灵’和类似的文生大模型在未来的商业化潜力相当大。”姜骁潇在影视和广告制作中,文生大模型可以用于快速生成特效、场景设计和虚拟角色等,节省成本和时间,提高效率;在虚拟现实和游戏开发领域,这些模型可以用于生成角色动画和互动场景,为用户提供更加身临其境的体验等。

  Sora释放的“冲击波”还在持续蔓延,官方发布的多个预览里,五彩斑斓的现实世界似乎已经被搬上虚拟的“频道”。

  但Sora和它的挑战者们,并不想虚构世界,而是在理解真实世界的规则基础上,生成一个全新的世界。

  “硅谷精神之父”、杂志创始主编凯文•凯利在2019年写道:“镜像世界尚未完全存在,但它正在到来。”而此前他曾预言,“万物都会有数字版本,这世间所有,都将在数字世界建立镜像”,至于还要多久,凯文•凯利认为,“是5000天后”。

  未经许可禁止、、及镜像等使用