重磅！AI 挑战天花板ARC-AGI-2 发布，顶流o3 模型也只能拿5分！

2025-12-21 01:49:13 admin 收藏故事汇

重磅！AI 挑战天花板ARC-AGI-2 发布，顶流o3 模型也只能拿5分！

可事实上

这边ARC Prize丝毫不给AI面子

马上就提出了全新的ARC-AGI-2基准

我仔细看了下通报的战绩：

纯LLM大模型，表现如何？

0分，妥妥打回原形

专业AI推理系统表现更好？

R1和o3-mini不到4%成绩

就连号称适应性拉满的o1 pro和o3

也就个位数分数

不到5%

可相同的题目，换成人类呢？

ARC直接做了活体测试：

400名真人，轻松搞定全部题目

简直就是降维打击啊！

看到这里，我就纳闷了：

这考的啥啊？

AI怎么集体扑街了？

往下看了ARC-AGI-2的详细介绍

这才明白，这套测试真是瞄准了

当前AI模型的三大软肋狠狠出击：

第一个软肋：符号解释能力

现在的AI推理系统

看到符号时只会分析视觉模式

会检查对称性、镜像、变换

甚至能认出连接元素

但就是死活不理解符号本身的语义意义

第二个软肋：组合推理能力

当需要同时应用多条规则时

或者要应用相互影响的多条规则

AI推理系统就开始翻车了

反倒是任务只有一两条全局规则时

系统还能稳定发现并应用

第三个软肋：上下文规则应用

AI推理系统最怕的就是

根据不同上下文灵活应用规则的任务

系统总是盯着表面模式死磕

而不是理解底层的选择原则

怪不得现有AI 全军覆没

这不就是把AI 的短板全揪出来暴打了？

而且ARC-AGI-2 也不是什么

需要超人类技能的变态题目

它考的恰恰就是AI 最缺的关键能力：

高效获取新技能的能力

说人话就是：

人能举一反三，AI只会死记硬背

人类做题五分钟，AI 狂烧token 两小时

更关键的是，ARC 比赛还首次引入了

费用效率这个核心指标

不再是单纯比谁分数高了

而是看谁能用最少的成本达到目标

这怎么有点薅羊毛党内卷的味道？

ARC 官方也给出了超强挑战目标：

准确率85%，且每题成本不超过0.42美元

这水平，感觉就像是让AI 去参加个

高考奥数竞赛还得用最便宜的铅笔做题

为了鼓励全球研究人员突破这一挑战

ARC Prize 2025大赛奖金丰厚得很：

总奖金池超100万美元

大奖直接70万美元

其中「概念贡献奖」7.5万美元

「最高分奖」5万美元

我算了下，换成人民币超700万啊！

怪不得去年比赛就吸引了

1500多支队伍参与，40篇论文发表

今年更是加码升级：

计算资源翻倍

开源要求更严格

评分规则也调整为激励概念突破

就是要引导大家不只是刷榜

而是要搞出真正的创新解法

这操作，我悟了：

ARC Prize 不是在办比赛

是在用重金集全球之力

薅全球最强AI 人才羊毛啊！

对比了一下，现在ARC-AGI-2 榜单排行

o3(low)预估成绩不到5%，每题200刀

o1-pro预估成绩不到5%，每题39刀

o1(high)成绩3%，每题4.5刀

ARChitects(2024优胜团队)成绩2.5%，每题0.2刀

o3-mini成绩1.7%，每题0.28刀

Icecuber成绩1.6%，每题0.13刀

DeepSeek R1成绩1.3%，每题0.08刀

Gemini 2.0 Flash成绩1.3%，每题0.004刀

卧槽，连OpenAI、DeepSeek这种顶流

都被打回了百分之个位数？

你可能好奇了，

这比赛到底咋玩？

好在ARC Prize官方已经透露

今年比赛继续在Kaggle 平台举办

就在本周上线

现在网上就能报名了👇

https://arcprize.org/competition

而且对于论文评选，ARC 官方给出了评分标准：

准确性：提交在榜单上的表现如何

通用性：提交方法超越比赛的普遍适用性

进展：论文增加了多少人实现85%的可能性

理论：论文描述了为什么它有效（而不仅是如何有效）

完整性：论文对提交内容的覆盖程度

新颖性：相对于现有公开研究的创新性

讲真，我看完ARC-AGI-2的详情

不禁感叹，AI 现阶段离AGI 还真有段距离

就像作者Chollet 说的：

「一旦我们想不出对人类容易但对AI 困难的问题时，我们就达到了AGI」

而ARC-AGI-2恰恰证明了：

我们还没有AGI，仍需要新的想法！

简单讲，这是一个不跨过去

AI 就永远不能称自己是「通用」的门槛

这项挑战不止在测试AI 能力

更是在打造AGI 的「北极星」指标

看到这，我突然想：

要不我也报个名，组个队伍试试？

万一冲一把就中了70万美元大奖呢？

要是拿下概念贡献奖也有5万美元入账啊

按照这比赛的难度和参与度

怕不是比中彩票容易多了吧？

怎么样，年轻人

你心动了吗？

👇

本文同步自知识星球《AGI Hunt》

——这是个只有干货、没有感情的前沿一线AI 资讯信息流（不是推荐流、不卖课、不讲道理、不教你做人、只提供信息）

星球实时采集和监控推特、油管、discord、电报等平台的热点 AI 内容，并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；

每天挖掘出10+ 热门的/新的 github 开源 AI 项目；

每天转译、点评 10+ 热门 arxiv AI 前沿论文。

每天约监控6000 条消息，可节省约800+ 小时的阅读成本；

每天挖掘出10+ 热门的/新的 github 开源 AI 项目；

每天转译、点评 10+ 热门 arxiv AI 前沿论文。

星球非免费。定价99元/年，0.27元/天。(每+100人，+20元。元老福利~）

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；

二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

一是运行有成本，我希望它能自我闭环，这样才能长期稳定运转；

二是对人的挑选，鱼龙混杂不是我想要的，希望找到关注和热爱 AI 的人。

欢迎你的加入！也欢迎加群和2000+群友交流

除了冰冷的实时资讯，还会有冰冷的AI 早晚报，欢迎来玩！

返回搜狐，查看更多