重磅!AI 挑战天花板ARC-AGI-2 发布,顶流o3 模型也只能拿5分!
可事实上
这边ARC Prize丝毫不给AI面子
马上就提出了全新的ARC-AGI-2基准
我仔细看了下通报的战绩:
纯LLM大模型,表现如何?
0分,妥妥打回原形
专业AI推理系统表现更好?
R1和o3-mini不到4%成绩
就连号称适应性拉满的o1 pro和o3
也就个位数分数
不到5%
可相同的题目,换成人类呢?
ARC直接做了活体测试:
400名真人,轻松搞定全部题目
简直就是降维打击啊!
看到这里,我就纳闷了:
这考的啥啊?
AI怎么集体扑街了?
往下看了ARC-AGI-2的详细介绍
这才明白,这套测试真是瞄准了
当前AI模型的三大软肋狠狠出击:
第一个软肋:符号解释能力
现在的AI推理系统
看到符号时只会分析视觉模式
会检查对称性、镜像、变换
甚至能认出连接元素
但就是死活不理解符号本身的语义意义
第二个软肋:组合推理能力
当需要同时应用多条规则时
或者要应用相互影响的多条规则
AI推理系统就开始翻车了
反倒是任务只有一两条全局规则时
系统还能稳定发现并应用
第三个软肋:上下文规则应用
AI推理系统最怕的就是
根据不同上下文灵活应用规则的任务
系统总是盯着表面模式死磕
而不是理解底层的选择原则
怪不得现有AI 全军覆没
这不就是把AI 的短板全揪出来暴打了?
而且ARC-AGI-2 也不是什么
需要超人类技能的变态题目
它考的恰恰就是AI 最缺的关键能力:
高效获取新技能的能力
说人话就是:
人能举一反三,AI只会死记硬背
人类做题五分钟,AI 狂烧token 两小时
更关键的是,ARC 比赛还首次引入了
费用效率这个核心指标
不再是单纯比谁分数高了
而是看谁能用最少的成本达到目标
这怎么有点薅羊毛党内卷的味道?
ARC 官方也给出了超强挑战目标:
准确率85%,且每题成本不超过0.42美元
这水平,感觉就像是让AI 去参加个
高考奥数竞赛还得用最便宜的铅笔做题
为了鼓励全球研究人员突破这一挑战
ARC Prize 2025大赛奖金丰厚得很:
总奖金池超100万美元
大奖直接70万美元
其中「概念贡献奖」7.5万美元
「最高分奖」5万美元
我算了下,换成人民币超700万啊!
怪不得去年比赛就吸引了
1500多支队伍参与,40篇论文发表
今年更是加码升级:
计算资源翻倍
开源要求更严格
评分规则也调整为激励概念突破
就是要引导大家不只是刷榜
而是要搞出真正的创新解法
这操作,我悟了:
ARC Prize 不是在办比赛
是在用重金集全球之力
薅全球最强AI 人才羊毛啊!
对比了一下,现在ARC-AGI-2 榜单排行
o3(low)预估成绩不到5%,每题200刀
o1-pro预估成绩不到5%,每题39刀
o1(high)成绩3%,每题4.5刀
ARChitects(2024优胜团队)成绩2.5%,每题0.2刀
o3-mini成绩1.7%,每题0.28刀
Icecuber成绩1.6%,每题0.13刀
DeepSeek R1成绩1.3%,每题0.08刀
Gemini 2.0 Flash成绩1.3%,每题0.004刀
卧槽,连OpenAI、DeepSeek这种顶流
都被打回了百分之个位数?
你可能好奇了,
这比赛到底咋玩?
好在ARC Prize官方已经透露
今年比赛继续在Kaggle 平台举办
就在本周上线
现在网上就能报名了👇
https://arcprize.org/competition
而且对于论文评选,ARC 官方给出了评分标准:
准确性:提交在榜单上的表现如何
通用性:提交方法超越比赛的普遍适用性
进展:论文增加了多少人实现85%的可能性
理论:论文描述了为什么它有效(而不仅是如何有效)
完整性:论文对提交内容的覆盖程度
新颖性:相对于现有公开研究的创新性
讲真,我看完ARC-AGI-2的详情
不禁感叹,AI 现阶段离AGI 还真有段距离
就像作者Chollet 说的:
「一旦我们想不出对人类容易但对AI 困难的问题时,我们就达到了AGI」
而ARC-AGI-2恰恰证明了:
我们还没有AGI,仍需要新的想法!
简单讲,这是一个不跨过去
AI 就永远不能称自己是「通用」的门槛
这项挑战不止在测试AI 能力
更是在打造AGI 的「 北极星」指标
看到这,我突然想:
要不我也报个名,组个队伍试试?
万一冲一把就中了70万美元大奖呢?
要是拿下概念贡献奖也有5万美元入账啊
按照这比赛的难度和参与度
怕不是比中彩票容易多了吧?
怎么样,年轻人
你心动了吗?
👇
👇
👇
本文同步自知识星球《AGI Hunt》
——这是个只有干货、没有感情的前沿一线AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息)
星球实时采集和监控推特、油管、discord、电报等平台的热点 AI 内容,并基于数个资讯处理的 AI agent 挑选、审核、翻译、总结到星球中。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
每天约监控6000 条消息,可节省约800+ 小时的阅读成本;
每天挖掘出10+ 热门的/新的 github 开源 AI 项目;
每天转译、点评 10+ 热门 arxiv AI 前沿论文。
星球非免费。定价99元/年,0.27元/天。(每+100人,+20元。元老福利~)
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
一是运行有成本,我希望它能自我闭环,这样才能长期稳定运转;
二是对人的挑选,鱼龙混杂不是我想要的,希望找到关注和热爱 AI 的人。
欢迎你的加入!也欢迎加群和2000+群友交流
除了冰冷的实时资讯,还会有冰冷的AI 早晚报,欢迎来玩!
返回搜狐,查看更多