斯坦福2025 AI指数出炉!中美AI最终 对决差距仅剩0.3%,DeepSeek领衔

摘要

  新智元报道  编辑 :编辑 部【新智元导读】2025年斯坦福HAI报告重磅宣布 ,456页深度剖析环球AI领域的最新趋势 :中美顶级模型 性能 差距缩至0.3%,以DeepSeek为代表的模型 强势崛起,迫近闭源巨子 ;推理本钱暴降,小


  新智元报道  

编辑 :编辑 部

【新智元导读】2025年斯坦福HAI报告重磅宣布 ,456页深度剖析环球AI领域的最新趋势 :中美顶级模型 性能 差距缩至0.3%,以DeepSeek为代表的模型 强势崛起,迫近闭源巨子 ;推理本钱暴降,小模型 性能 飙升,AI正变得更高效、更普惠。

就在刚刚,每年都备受注视 的斯坦福AI指数报告,重磅宣布 了!

这份报告由斯坦福大学以报酬 本AI研讨 院宣布 ,代表着每年AI领域最核心和前沿的动向总结。

今年 ,这份报告长达456页,抛出不少惊人概念 。

好比,现在在2025年,中美顶级AI模型 的性能 差距已经缩小到了0.3%(2023年,这一数字还是20%),中国模型 正在快速追赶美国的领先职位!

而DeepSeek领衔的开放权重模型 ,更是以1.7%之差,逼宫各大闭源巨子 。前者和后者的差距,已颠末2024年的8%,缩小至2025年的1.7%。

固然,现在从行业主导企业来看,美国仍然领先于中国。在2024年,90%的知名AI模型 来自企业,美国以40个模型 领先,中国有15个。

更明显的一个趋势 ,就是现在大模型 的性能 已经趋同!在2024年,TOP1和TOP10的模型 的差距能有12%,但现在,它们的差距已经越来越小,锐减至5%。


十二大亮点


最新的斯坦福HAI两篇博文中,浓缩了2025年AI指数报告的十二大亮点。

1. AI性能 再攀岑岭 ,从基准测试到视频天生全面突破

2023年,研讨 人员推出了MMMU、GPQA和SWE-bench等新基准来测试先进AI体系的极限。

仅一年后,性能 便大幅提升:AI在三项基准得分分别飙升18.8%、48.9%和67.3%。

不仅如此,AI在天生高质量视频方面取得重大突破,乃至,在某些场景下AI智能体乃至超越 人类体现。

· 更有效智能体崛起 

2024年宣布 的RE-Bench基准测试,为评估AI智能体庞杂 任务能力设立了严苛尺度。

数据表现:在短期任务(2小时内)场景下,顶级AI体系的体现可达人类专家的4倍;但当任务时限延伸至32小时,人类则以2:1的优势反超。

值得注意的是,AI已在特定领域,如编写特定范例 代码,浮现 出与人类相称的专业水平,且实行屈服 更胜一筹。


2. 美国领跑顶尖模型 研发,但中国与之差距逐渐缩小

2024年,美国产出40个重要AI模型 ,远超中国的15个和欧洲的3个。

然而,中国模型 在性能 上的差距正加速缩小:MMLU等基准测试中,中美AI差别从两位数缩小至近乎持平。

同时,中国在AI学术论文和专利申请量上持续领跑,中东、拉美和东南亚地域也出现 出具有竞争力的模型 。


3. AI正变得高效且普惠,推理本钱暴降280倍


跟着 小模型 性能 提升,达到GPT-3.5水平的推理本钱在两年间下降280倍,硬件本钱以每年30%的速率递减,能效年提升率达40%。

更令人奋发 的是,开源模型 性能 突飞大进 ,部分基准测试中与闭源模型 的差距从8%缩至1.7%。

· 大模型 使用本钱持续走低,年降幅最高900倍

在MMLU基准测试中达到GPT-3.5水平(MMLU精确率64.8%)的AI模型 挪用 本钱,已从2022年11月的20美元/每百万token,骤降至2024年10月的0.07美元/每百万token(谷歌DeepMind的Gemini-1.5-Flash-8B模型 ),18个月内AI本钱下降280倍。

视详细任务需求,LLM推理服务代价的年降幅可达9-900倍不等。

· 小模型 性能 显著提升,参数暴减142倍

2022年,在大规模 多任务语言明白(MMLU)基准测试中,得分超60%的最小模型 是 PaLM,参数量为5400亿。

到了2024年,微软Phi-3-mini仅用38亿参数,就取得了同样的气力。

这代表,两年多的时间里模型 参数淘汰了142倍。


4. 科技巨子 称霸AI前沿,但竞争白热化


2024年,近90%的重要模型 源自企业,学术界则保持基础研讨 优势。

模型 规模 呈指数增加 :练习算力每5个月翻番,数据集每8个月扩容一倍。

值得注意的是,头部模型 性能 差距显著缩小,榜首与第十名得分差已从11.9%降至5.4%。


5. AI逻辑短板,推理能力仍是瓶颈


采用符号推理办法 的AI体系,能较好办理IMO问题(虽未达人类顶尖水平),但LLM在MMMU等庞杂 推理任务中体现欠佳,尤其不擅长 算术推导和规划类强逻辑性任务。

这一局限影响了其在医疗诊断等高风险场景的应用可靠性。


6. 大厂ALL in AI,投资与采用率创双记录


科技大厂们,正全力押注AI。

2024年,美国私营AI投资达1091亿美元,约为中国(93亿)的12倍、英国(45亿)的24倍。

天生式AI势头尤猛,环球私募投资达339亿美元(同比增18.7%)。

与此同时,企业AI采用率从55%升至78%。研讨 证实,AI不仅能提升临盆 力,多数情况下还可缩小劳动力技巧 差距。

更惹人 注视 的是,将天生式AI应用于至少一项业务职能的企业数量激增——从2023年的33%跃升至客岁的71%,增幅超一倍。


7. AI荣膺科学界最高荣誉 ,摘诺奖桂冠


2024年,两项诺贝尔奖分别授予深度学习理论基础(物理学)和卵白质折叠猜测(化学)研讨 ,图灵奖则花落强化学习领域。


8. AI教诲遍及加速,但资本 差距仍存


环球2/3国家 已或计划开展K-12盘算机科学教诲,但非洲地域受限于电力等基础办法 ,鞭策 迟钝。

美国81%的盘算机西席认为AI应纳入基础课程,但仅47%具备相应教学能力。


9. AI正深度融入日常生存


从医疗到交通,AI正快速从实验室走向实际。

1995年,FDA批准了第一款AI赋能的医疗器械。

克制2024年8月,FDA已批准950款AI医疗装备——较2015年的6款和2023年的221款,增加 迅猛。

而在自动驾驶领域,汽车已离开实验阶段:美国头部运营商Waymo每周提供超15万次无人驾驶服务。


10. 环球AI乐不雅 情绪上升,但地域差别显著


中国(83%)、印尼(80%)和泰国(77%)民众对AI持积极态度,而加拿大(40%)、美国(39%)等蓬勃 国家 则相对保守。

值得存眷 的是,德国(+10%)、法国(+10%)等原怀疑论国家 态度明显变化。


11. 负义务 AI生态发展 不均


虽然AI平安 变乱激增,但主流模型 开辟商仍缺乏 尺度化评估体系 。

HELM Safety、AIR-Bench和FACTS等新基准为事实性与平安 性评估提供对象 。

企业广泛存在「认知与举措摆脱」,而列国 政府加速协作:2024年,经合组织、欧盟等国际机构接踵 宣布 聚焦透明度、可托 度的治理框架。

· 问题AI数量跃升

根据权威AI危害追踪数据库「AI变乱库」(AI Incidents Database)统计,2024年环球AI相关危害变乱激增至233起,创下历史新高,较2023年暴涨56.4%。

其中既包括深度捏造 私密图像案件,也涉及聊天死板 人疑似导致青少年自杀等恶性变乱。

尽管 该统计未能涵盖全部案例,但已清楚揭示AI技巧 滥用正在出现惊人增加 态势。


12. 环球监管力度持续增强


2024年美国联邦机构颁布59项AI律例 ,涉及部分数量翻倍。

75个国家 立法机构说起 AI频次同比增加 21.3%,较2016年增加 九倍。

投资方面:加拿大答应24亿美元,中国设立475亿美元半导体基金,法国投入1090亿欧元,印度拨款12.5亿美元,沙特启动千亿美元级的「超越 计划」。


详细亮点解读


下面,我们将摘出报告中的亮点内容,提供更详细的解读。

 中美差距仅剩0.3%


翻开 502页的报告,最吸睛的部分,莫过于中美AI差别这部分了。

报告中夸大,虽然2024年,美国在顶尖AI模型 的研发上依然领先,但中美模型 之间的性能 差距,正在敏捷缩小!

为了权衡AI领域已往一年演变 的环球格局,HAI特意用AI指数,列出了具有代表性的模型 所属国家 ,美国依然居首。

数据表现,在2024年,美国机构以拥有40个知名模型 领先,远远高出中国的15个和欧洲的3个。

总体来说,模型 宣布 总量已经下降,可能是多个身分 配合 导致的,好比练习规模 日益庞大、AI技巧 日益庞杂 ,开辟新模型 办法 的难度也在增加 。

AI模型 已成为算力巨兽


· 参数趋势

简朴的说,参数就是AI模型 经由进程 练习学到的一些数字,这些数字决议 了模型 怎样明白输入和怎样输出。

AI的参数越多需要的练习数据也越多,但同时性能 也更锋利。

从2010年月 初开始 ,模型 的参数量就蹭蹭往上涨,这背后是因为模型 计划得越来越庞杂 、数据更容易获取、硬件算力也更强了。

更重要的是,大模型 确实结果好。

下图用了对数刻度,便当 大家看清楚AI模型 参数和算力近年来的爆炸式增加 。

跟着 模型 参数数量的增加 ,练习所需的数据量也在暴涨。

2017年宣布 的Transformer模型 ,掀起了大型语言模型 的热潮,当时它用了大约20亿个token来练习。

到了2020年,GPT-3 175B模型 的练习数据已经飙到了约3740亿个token。

而Meta在2024年夏天宣布 的模型 Llama 3.3,更是用了大约15万亿个token来练习。

根据Epoch AI的数据,大型语言模型 的练习数据集规模 大约每八个月翻一倍。

练习数据集越来越大,导致的练习时间也变得越来越长。

像Llama 3.1-405B如许的模型 ,练习大概需要90天,这在现在已经算是「正常」的了。

谷歌在2023年底宣布 的Gemini 1.0 Ultra,练习时间大约是100天。

相比之下,2012年的AlexNet就显得快多了,练习只花了五六天,而且 AlexNet当时用的硬件还远没有现在的先进。

· 算力趋势

「算力」指的是练习和运行AI模型 所需的盘算资本 。

最近,知名AI模型 的算力消耗呈指数级增加 。据Epoch AI估计 ,知名AI模型 的练习算力大约每五个月翻一番。

这种趋势 在已往五年尤为明显。

客岁12月,DeepSeek V3一经推出就引发了广泛 存眷 ,主要就是因为它在性能 上极其出色,但用的盘算资本 却比许多顶尖大型语言模型 少得多。

下图1.3.17比力了中国和美国知名AI模型 的练习算力,揭示了一个重要趋势 :美国的顶级AI模型 通常比中国模型 需要多得多的盘算资本 。

· 推理本钱

推理本钱,指的是对一个已练习模型 进行查询所需的费用,通常以「每百万tokens的美元代价」来权衡。

这份报告中AI token的代价数据,来源于Artificial Analysis和Epoch AI的API定价专有数据库,而代价是根据输入与输出token的代价按3:1的权重匀称盘算得出的。

可以看出,单位性能 的AI本钱正在显著下降。

而Epoch AI估计 ,根据差别任务范例 ,大型语言模型 的推理本钱每年下降幅度可达9倍至900倍不等。

虽然如此,想要获得 来自OpenAI、Meta和Anthropic的模型 ,仍需支付 不小的溢价。

· 练习本钱

虽然很少有AI公司披露详细的练习本钱,但这个数字广泛已达到数百位美元。

OpenAI CEO奥特曼曾表示,练习GPT-4的练习本钱高出了1亿美元。

Anthropic的CEO Dario Amodei指出,现在正在练习的模型 ,本钱约为10亿美元。

DeepSeek-V3的600万美元,则冲破了新低。

图1.3.24展示了基于云盘算租赁代价的部分AI模型 的练习本钱估算。

图1.3.25展示了AI指数所估算的全部AI模型 的练习本钱。

在2024年,Epoch能估算的少数模型 之一,就是Llama 3.1-405B,练习本钱约为1.7亿美元。

另外,AI模型 的练习本钱与其盘算需求之间存在直接的联系关系 。如图1.3.26所示,盘算需求更大的模型 练习本钱显著更高。

参考材料 :YZNH

https://www.nature.com/articles/d41586-025-01033-y

https://hai.stanford.edu/ai-index/2025-ai-index-report

https://hai.stanford.edu/news/ai-index-2025-state-of-ai-in-10-charts

0

路过

0

雷人

0

握手

0

鲜花

0

鸡蛋

推广
火星云矿 | 预约S19Pro,享500抵1000!
本文暂无评论,快来抢沙发!

有招是一个优质的生活妙招创作平台,在这里,你可以任意分享你的妙招经验,日常生活、技能学习、成长励志、恋爱婚姻……我们相信,每个人都有独特的生活妙招,有着无穷的创造力。
  • 官方手机版

  • 微信公众号

  • 商务合作