当前位置:主页 > 动态 >

AI商战评测:GPT积极交易,Haiku只画大饼,Kimi忙碌却没钱赚

时间:2026-06-26 17:07:17

  消息,AI姨发文称,Sakana AI联合KPMG日本AZSA审计公司推出多智能体长周期经济学评测基准Coffeebench,模拟真实商业环境以检验大模型的长期决策能力。评测模拟了由2家咖啡农、2家烘焙商和2家零售商构成的咖啡供应链,受试模型负责运营1家烘焙商,在90天内通过消息、报价交易和账单支付等工具维持经营。评测显示,GPT-5.5与Claude Opus 4.7为「积极沟通型」,频繁谈判并撮合订单Gemini 3.1 Pro为「被动响应型」,极少主动发信Kimi K2.6因缺乏定价纪律陷入「高流水、零利润」的困境。评测还施加销售目标压力,指出智能体未来可能因业绩压力走向经济违规,如何审计并防范智能体的违规与欺诈将成为新课题。

热点推荐
1 航运公司转型为加密协议,Ethra Ship打造真

消息,航运公司Ethra Ship正在将真实的干散货运输业务转型为加密协议,连接海运现金流、$SH...

2 Abraxas Capital巨鲸套利黄金年化收益率达

消息,Abraxas Capital巨鲸套利黄金年化收益率达25.9%,凭资金费率已录得10.2%回报率。美联储青睐...

3 XBIT DEX:深圳世界杯预测活动即将举行

消息,XBIT DEX宣布将于2026年6月30日15:00在深圳举行世界杯预测活动。活动将聚集足球爱好者和...

4 AI商战评测:GPT积极交易,Haiku只画大饼,

消息,AI姨发文称,Sakana AI联合KPMG日本AZSA审计公司推出多智能体长周期经济学评测基准Coffee...

5 迈克尔·塞勒:将在比特币价格下跌期间

消息,迈克尔塞勒表示,他将在比特币价格下跌期间持续买入比特币。在过去15年中,比特币已...

6 伊朗敦促海合会支持中东“无核武器区”

消息,伊朗外交部驳斥了美国与以色列政府关于伊朗和平核计划的立场,称其为不实指控。伊...

7 韩国互联网银行Toss与Poseidon签署AI数据业

韩国第三大互联网银行Toss宣布与去中心化AI数据基础设施公司Poseidon签署谅解备忘录,开展用户...

8 李纪为团队开源Ornith编程模型:35B混合专

消息,李纪为团队开源了Ornith-1.0模型,采用MIT协议发布。该模型在Gemma 4与Qwen 3.5基础上训练,...

9 比特币、以太坊、Solana和HYPE ETF于6月25日

消息,6月25日,比特币、以太坊、Solana和HYPE的现货ETF皆出现净流出。具体数据显示,比特币净...

10 CryptoQuant分析师:三类ETH巨鲸群体均已陷

消息,CryptoQuant分析师Darkfost在X平台发文指出,ETH巨鲸已陷入亏损,这是自2019年以来首次出现...

成都来彰科技 蜀ICP备2025134723号-1

资讯来源互联网,如有版权问题请联系管理员删除。