新智元报道
【新智元导读】2025年斯坦福HAI报告重磅宣布
,456页深度剖析环球AI领域的最新趋势
:中美顶级模型
性能
差距缩至0.3%,以DeepSeek为代表的模型
强势崛起,迫近闭源巨子
;推理本钱暴降,小模型
性能
飙升,AI正变得更高效、更普惠。 就在刚刚,每年都备受注视
的斯坦福AI指数报告,重磅宣布
了! 这份报告由斯坦福大学以报酬
本AI研讨
院宣布
,代表着每年AI领域最核心和前沿的动向总结。 今年
,这份报告长达456页,抛出不少惊人概念
。 好比,现在在2025年,中美顶级AI模型
的性能
差距已经缩小到了0.3%(2023年,这一数字还是20%),中国模型
正在快速追赶美国的领先职位! 而DeepSeek领衔的开放权重模型
,更是以1.7%之差,逼宫各大闭源巨子
。前者和后者的差距,已颠末2024年的8%,缩小至2025年的1.7%。 固然,现在从行业主导企业来看,美国仍然领先于中国。在2024年,90%的知名AI模型
来自企业,美国以40个模型
领先,中国有15个。 更明显的一个趋势
,就是现在大模型
的性能
已经趋同!在2024年,TOP1和TOP10的模型
的差距能有12%,但现在,它们的差距已经越来越小,锐减至5%。
最新的斯坦福HAI两篇博文中,浓缩了2025年AI指数报告的十二大亮点。 1. AI性能
再攀岑岭
,从基准测试到视频天生全面突破 2023年,研讨
人员推出了MMMU、GPQA和SWE-bench等新基准来测试先进AI体系的极限。 仅一年后,性能
便大幅提升:AI在三项基准得分分别飙升18.8%、48.9%和67.3%。 不仅如此,AI在天生高质量视频方面取得重大突破,乃至,在某些场景下AI智能体乃至超越
人类体现。 · 更有效智能体崛起 2024年宣布
的RE-Bench基准测试,为评估AI智能体庞杂
任务能力设立了严苛尺度。 数据表现:在短期任务(2小时内)场景下,顶级AI体系的体现可达人类专家的4倍;但当任务时限延伸至32小时,人类则以2:1的优势反超。 值得注意的是,AI已在特定领域,如编写特定范例
代码,浮现
出与人类相称的专业水平,且实行屈服
更胜一筹。
2. 美国领跑顶尖模型
研发,但中国与之差距逐渐缩小2024年,美国产出40个重要AI模型
,远超中国的15个和欧洲的3个。 然而,中国模型
在性能
上的差距正加速缩小:MMLU等基准测试中,中美AI差别从两位数缩小至近乎持平。 同时,中国在AI学术论文和专利申请量上持续领跑,中东、拉美和东南亚地域也出现
出具有竞争力的模型
。
3. AI正变得高效且普惠,推理本钱暴降280倍
跟着
小模型
性能
提升,达到GPT-3.5水平的推理本钱在两年间下降280倍,硬件本钱以每年30%的速率递减,能效年提升率达40%。 更令人奋发
的是,开源模型
性能
突飞大进
,部分基准测试中与闭源模型
的差距从8%缩至1.7%。 · 大模型
使用本钱持续走低,年降幅最高900倍 在MMLU基准测试中达到GPT-3.5水平(MMLU精确率64.8%)的AI模型
挪用
本钱,已从2022年11月的20美元/每百万token,骤降至2024年10月的0.07美元/每百万token(谷歌DeepMind的Gemini-1.5-Flash-8B模型
),18个月内AI本钱下降280倍。 视详细任务需求,LLM推理服务代价的年降幅可达9-900倍不等。 · 小模型
性能
显著提升,参数暴减142倍 2022年,在大规模
多任务语言明白(MMLU)基准测试中,得分超60%的最小模型
是 PaLM,参数量为5400亿。 到了2024年,微软Phi-3-mini仅用38亿参数,就取得了同样的气力。 这代表,两年多的时间里模型
参数淘汰了142倍。
4. 科技巨子
称霸AI前沿,但竞争白热化
2024年,近90%的重要模型
源自企业,学术界则保持基础研讨
优势。 模型
规模
呈指数增加
:练习算力每5个月翻番,数据集每8个月扩容一倍。 值得注意的是,头部模型
性能
差距显著缩小,榜首与第十名得分差已从11.9%降至5.4%。
5. AI逻辑短板,推理能力仍是瓶颈
采用符号推理办法
的AI体系,能较好办理IMO问题(虽未达人类顶尖水平),但LLM在MMMU等庞杂
推理任务中体现欠佳,尤其不擅长
算术推导和规划类强逻辑性任务。 这一局限影响了其在医疗诊断等高风险场景的应用可靠性。
6. 大厂ALL in AI,投资与采用率创双记录
科技大厂们,正全力押注AI。 2024年,美国私营AI投资达1091亿美元,约为中国(93亿)的12倍、英国(45亿)的24倍。 天生式AI势头尤猛,环球私募投资达339亿美元(同比增18.7%)。 与此同时,企业AI采用率从55%升至78%。研讨
证实,AI不仅能提升临盆
力,多数情况下还可缩小劳动力技巧
差距。 更惹人
注视
的是,将天生式AI应用于至少一项业务职能的企业数量激增——从2023年的33%跃升至客岁的71%,增幅超一倍。
7. AI荣膺科学界最高荣誉
,摘诺奖桂冠
2024年,两项诺贝尔奖分别授予深度学习理论基础(物理学)和卵白质折叠猜测(化学)研讨
,图灵奖则花落强化学习领域。
8. AI教诲遍及加速,但资本
差距仍存
环球2/3国家
已或计划开展K-12盘算机科学教诲,但非洲地域受限于电力等基础办法
,鞭策
迟钝。 美国81%的盘算机西席认为AI应纳入基础课程,但仅47%具备相应教学能力。
9. AI正深度融入日常生存
从医疗到交通,AI正快速从实验室走向实际。 1995年,FDA批准了第一款AI赋能的医疗器械。 克制2024年8月,FDA已批准950款AI医疗装备——较2015年的6款和2023年的221款,增加
迅猛。 而在自动驾驶领域,汽车已离开实验阶段:美国头部运营商Waymo每周提供超15万次无人驾驶服务。
10. 环球AI乐不雅
情绪上升,但地域差别显著
中国(83%)、印尼(80%)和泰国(77%)民众对AI持积极态度,而加拿大(40%)、美国(39%)等蓬勃
国家
则相对保守。 值得存眷
的是,德国(+10%)、法国(+10%)等原怀疑论国家
态度明显变化。
11. 负义务
AI生态发展
不均
虽然AI平安
变乱激增,但主流模型
开辟商仍缺乏
尺度化评估体系
。 HELM Safety、AIR-Bench和FACTS等新基准为事实性与平安
性评估提供对象
。 企业广泛存在「认知与举措摆脱」,而列国
政府加速协作:2024年,经合组织、欧盟等国际机构接踵
宣布
聚焦透明度、可托
度的治理框架。 · 问题AI数量跃升 根据权威AI危害追踪数据库「AI变乱库」(AI Incidents Database)统计,2024年环球AI相关危害变乱激增至233起,创下历史新高,较2023年暴涨56.4%。 其中既包括深度捏造
私密图像案件,也涉及聊天死板
人疑似导致青少年自杀等恶性变乱。 尽管
该统计未能涵盖全部案例,但已清楚揭示AI技巧
滥用正在出现惊人增加
态势。
12. 环球监管力度持续增强
2024年美国联邦机构颁布59项AI律例
,涉及部分数量翻倍。 75个国家
立法机构说起
AI频次同比增加
21.3%,较2016年增加
九倍。 投资方面:加拿大答应24亿美元,中国设立475亿美元半导体基金,法国投入1090亿欧元,印度拨款12.5亿美元,沙特启动千亿美元级的「超越
计划」。
下面,我们将摘出报告中的亮点内容,提供更详细的解读。
翻开
502页的报告,最吸睛的部分,莫过于中美AI差别这部分了。 报告中夸大,虽然2024年,美国在顶尖AI模型
的研发上依然领先,但中美模型
之间的性能
差距,正在敏捷缩小! 为了权衡AI领域已往一年演变
的环球格局,HAI特意用AI指数,列出了具有代表性的模型
所属国家
,美国依然居首。 数据表现,在2024年,美国机构以拥有40个知名模型
领先,远远高出中国的15个和欧洲的3个。 总体来说,模型
宣布
总量已经下降,可能是多个身分
配合
导致的,好比练习规模
日益庞大、AI技巧
日益庞杂
,开辟新模型
办法
的难度也在增加
。
· 参数趋势
简朴的说,参数就是AI模型
经由进程
练习学到的一些数字,这些数字决议
了模型
怎样明白输入和怎样输出。 AI的参数越多需要的练习数据也越多,但同时性能
也更锋利。 从2010年月
初开始
,模型
的参数量就蹭蹭往上涨,这背后是因为模型
计划得越来越庞杂
、数据更容易获取、硬件算力也更强了。 更重要的是,大模型
确实结果好。 下图用了对数刻度,便当
大家看清楚AI模型
参数和算力近年来的爆炸式增加
。 跟着
模型
参数数量的增加
,练习所需的数据量也在暴涨。 2017年宣布
的Transformer模型
,掀起了大型语言模型
的热潮,当时它用了大约20亿个token来练习。 到了2020年,GPT-3 175B模型
的练习数据已经飙到了约3740亿个token。 而Meta在2024年夏天宣布
的模型
Llama 3.3,更是用了大约15万亿个token来练习。 根据Epoch AI的数据,大型语言模型
的练习数据集规模
大约每八个月翻一倍。 练习数据集越来越大,导致的练习时间也变得越来越长。 像Llama 3.1-405B如许的模型
,练习大概需要90天,这在现在已经算是「正常」的了。 谷歌在2023年底宣布
的Gemini 1.0 Ultra,练习时间大约是100天。 相比之下,2012年的AlexNet就显得快多了,练习只花了五六天,而且
AlexNet当时用的硬件还远没有现在的先进。 · 算力趋势
「算力」指的是练习和运行AI模型
所需的盘算资本
。 最近,知名AI模型
的算力消耗呈指数级增加
。据Epoch AI估计
,知名AI模型
的练习算力大约每五个月翻一番。 这种趋势
在已往五年尤为明显。 客岁12月,DeepSeek V3一经推出就引发了广泛
存眷
,主要就是因为它在性能
上极其出色,但用的盘算资本
却比许多顶尖大型语言模型
少得多。 下图1.3.17比力了中国和美国知名AI模型
的练习算力,揭示了一个重要趋势
:美国的顶级AI模型
通常比中国模型
需要多得多的盘算资本
。 · 推理本钱 推理本钱,指的是对一个已练习模型
进行查询所需的费用,通常以「每百万tokens的美元代价」来权衡。 这份报告中AI token的代价数据,来源于Artificial Analysis和Epoch AI的API定价专有数据库,而代价是根据输入与输出token的代价按3:1的权重匀称盘算得出的。 可以看出,单位性能
的AI本钱正在显著下降。 而Epoch AI估计
,根据差别任务范例
,大型语言模型
的推理本钱每年下降幅度可达9倍至900倍不等。 虽然如此,想要获得
来自OpenAI、Meta和Anthropic的模型
,仍需支付
不小的溢价。 · 练习本钱 虽然很少有AI公司披露详细的练习本钱,但这个数字广泛已达到数百位美元。 OpenAI CEO奥特曼曾表示,练习GPT-4的练习本钱高出了1亿美元。 Anthropic的CEO Dario Amodei指出,现在正在练习的模型
,本钱约为10亿美元。 DeepSeek-V3的600万美元,则冲破了新低。 图1.3.24展示了基于云盘算租赁代价的部分AI模型
的练习本钱估算。 图1.3.25展示了AI指数所估算的全部AI模型
的练习本钱。 在2024年,Epoch能估算的少数模型
之一,就是Llama 3.1-405B,练习本钱约为1.7亿美元。 另外,AI模型
的练习本钱与其盘算需求之间存在直接的联系关系
。如图1.3.26所示,盘算需求更大的模型
练习本钱显著更高。 https://www.nature.com/articles/d41586-025-01033-y https://hai.stanford.edu/ai-index/2025-ai-index-report https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts |