兴中资讯

要闻

解析商汤2024中期财报:被忽略的端侧AI 2B商业化

时间:2024-09-12 19:40

  近日,商汤车端部署方案。这一成果展示了商汤在多模态感知和交互能力上的强大实力,也为智能汽车的发展提供了新的可能性。相较于传统的云上部署方案,商汤“绝影”的车载端侧8B多模态模型在延迟和推理速度上均表现出色,能够满足智能汽车对于实时性和准确性的高要求。

  在手机端,商汤的端侧小模型已经服务了小米、荣耀等主流安卓手机厂商客户。其推出的端侧小模型“日日新5.5lite”在推理速度和模型性能方面保持领先,其推理速度可达到每秒100字,延迟降至仅几十毫秒。与此同时,通过端云协同的推理架构,推理成本得以显著降低。据了解,接入商汤“日日新•商量”端侧大模型后,单台设备的成本可降至9.9元/年。

  徐立指出,借助端云协同的新推理架构,成本降低也有助于大模型覆盖到更多IoT设备,不仅是高端手机,还可以应用于中端、低端手机,电视、音箱等设备,实现智能交互功能。

  端侧两大技术根基——多模态能力、推理能力

  值得注意的是,在AI的竞技场上,商汤科技之所以能在生成式人工智能的初期爆发阶段占据领先地位,这与其在端侧——“多模态能力”和“推理能力”的技术优势密不可分。

  与文字输入相比,语音和等多模态输入方式提供了一种更为自然的交互体验。2024年7月,商汤推出了“日日新”大模型的5.5版本。相较于5.0版本,其综合能力提升了大约30%,并且在多模态能力方面得到了全面增强,可对标GPT-4o的实时交互体验,成为中国第一个多模态的实时交互大模型。

  在过去,众多模型在处理不同模态信息时,通常会先将语音等输入转换为文字,然后将文字与图像结合起来进行分析。输出反馈的过程也是先生成文字,再根据这些文字生成语音输出,这一过程中伴随着大量信息的丢失和较高的延迟。

  相比之下,多模态大模型能够高效且深入地融合语音、文字、图像、手势、等多种模态信息,从而提供更为丰富和自然的人机交互体验。与此同时,相较于以往的方案,多模态融合技术的难度也实现了几何级数的增长。

  今年4月,商汤科技在上海发布行业领先的“云、端、边”全栈大模型产品矩阵,并与小米、阅文、华为等多位生态伙伴共同探讨和交流大模型在办公、金融、出行等不同领域的应用及前景,加速生成式AI向产业落地的全面跃迁。在两个月后的WAIC 2024期间,商汤科技再次发布国内首个所见即所得模型“日日新5o”,交互体验对标GPT-4o,可实现实时的流式多模态交互。

  在历次的发布会上,商汤科技一直强调其对端侧推理效率提升的重视。也正是得益于中国市场上对大型模型和智能计算服务的强劲需求,以及“日日新SenseNova”大型模型能力的增强和推理成本的迅速降低,商汤的生成式人工智能业务在2024年上半年实现了显著的增长。

  在应用层面,商汤“日日新”端侧模型已深入各个行业,与超过150+客户启动商业对接,覆盖智能手机、平板电脑、VR一体机、车载电脑、智能台灯等诸多IoT设备部署应用。报告期内,已有3000多家行业头部企业使用商汤的大模型及智算服务。

  随着端侧大模型技术的不断进步,未来中国端侧大模型行业的竞争格局将展现出技术深度整合与创新驱动的新趋势。在生成式人工智能的关键发展时期,商汤科技凭借其在端侧大模型领域的深厚底蕴和创新能力,未来有望进一步增强其企业价值,成为人工智能领域的领头羊。