摘要:2025年定义为“智能体元年”,指出软件工程等职业被永久改变。行业呈现出五大核心趋势:推理模型成为所有主流AI公司的标配,图像编辑和视频生成技术达到主流可用水平,以编码为先导的智能体应用全面起飞,原生语音模型为语音智能体奠定基础,同时行业竞争也空前加剧,OpenAI的领先优势缩小至历史最窄。在技术层面,语言模型领域呈现“推理为王”的范式,在推动智能体发展的同时,GPT-4级别的智能成本已降至原成本的1%;多模态领域,图像、视频和语音生成均迎来“ChatGPT时刻”;而这一切的基石是算力的持续进化,NVIDIA的Blackwell平台、成熟的推理框架以及行业并购(如NVIDIA收购Groq)共同支撑了这场变革。总体而言,2025年AI行业完成了从“回答问题”到“执行任务”的根本性范式转移,并预示着2026年将是“智能体扩展到一切”的一年。
2026年初,人工智能分析公司(Artificial Analysis)发布了权威的《2025年年终全球人工智能状况报告》。报告开篇就直言:2025年,软件工程这个职业被永远地改变了。
仅仅一年前,人们还在向ChatGPT复制粘贴代码;而到年底,能自主工作数分钟的编码智能体已成为常态。如果用一个词定义2025,那就是“智能体元年”。而这只是冰山一角。
这份报告揭示了AI行业在2025年的深刻变革:推理模型成为标配、中美竞争加剧、图像视频生成走向主流,以及原生语音模型的突破。
本文将拆解报告核心内容,从行业变局、语言模型、多模态和算力四个维度,为你还原一个真实的2025 AI世界。
行业变局:五大趋势定义2025
2025年,AI行业不再是OpenAI的独角戏,五大趋势共同塑造了新的格局:推理模型成为新常态、行业竞争加剧、图像编辑与视频生成走向主流、智能体爆发、以及原生语音模型为语音智能体铺路。
1. 趋势一:推理模型成为新常态
年初,OpenAI的o1还是市场上唯一的“推理模型”。到2025年底,所有主流AI实验室都已开发出自己的推理模型,并占据了各大智能排行榜的最顶端。这场由OpenAI率先发起的范式革命,在一年内被全行业迅速复制和普及。
2. 趋势二:行业竞争加剧
AI领域在2025年显著多元化,发布模型的公司名单不断扩容。报告预测,进入2026年,这场竞赛不仅不会尘埃落定,反而将变得更加激烈,而非减弱。

3. 趋势三:图像编辑与视频生成走向主流
2025年,图像编辑和视频生成技术达到了主流可用的水平。以Gemini 2.5 Flash(Nano Banana)为代表的模型,带来了“阶梯式”的质量提升,让AI生成视觉内容真正进入了大众视野。
4. 趋势四:智能体全面起飞
2025年标志着从“单次查询”式工作负载,向“多轮对话式智能体任务”的根本性转变。编码智能体引领了早期应用;报告预测,2026年智能体将扩展到更广泛的企业工作场景中。正如开篇所言,它对软件工程领域的冲击已经显现。
5. 趋势五:原生语音到语音模型,为语音智能体奠基
2025年,随着原生音频推理模型的发展,语音到语音的交互质量实现了巨大飞跃。这项技术突破,为真正自然流畅的“语音智能体”的诞生奠定了坚实基础。
语言模型:
推理为王,智能体起飞,成本雪崩
2025年的语言模型领域,核心词是“推理”。这一范式带来了智能的大幅跃升、成本的持续下降,以及智能体AI的崛起。
1.智能新巅:OpenAI险胜,差距历史最窄
报告追踪的“前沿大语言模型智能度”曲线显示,OpenAI虽然在年初和年末都保持了最领先地位,但其优势已微乎其微。Anthropic、Google以及来自中国的深度求索(DeepSeek)、零一万物(Z.ai)等实验室紧追不舍,竞争空前激烈。

图:前沿大型语言模型(LLM)智能至2026年1月
2. 成本革命:GPT-4级智能,价格便宜100倍
效率的提升来自模型架构优化和软硬件协同。报告显示,达到GPT-4级别的智能,其成本已是原始GPT-4的 1% ,便宜了整整100倍。然而,更大的推理模型和更复杂的智能体任务,也意味着计算需求仍在持续攀升。

图:通过模型缩放提高了效率
3. 效率之争:输出多≠智能高,工具调用是关键
在转向智能体工作流后,一个新的现象出现:输出更多token并不直接等于更高智能。关键在于如何有效使用工具。在长周期智能体任务中,Google和Anthropic的领先模型展现了最佳的“token效率”。

图:GDP估值-AA:ELO与总代币使用量对比
4. 开源生态:中国力量崛起,与闭源差距犹存
2025年,开源模型生态持续繁荣,特别是来自中国实验室的模型表现抢眼,例如年初的DeepSeek R1作为首个开源推理模型,挑战了OpenAI的领先地位。年底,OpenAI自GPT-2后首次发布开源模型,再次推高了开源天花板。但总体而言,闭源模型仍保持着智能上的领先。

图:按许可证类型划分的领先语言模型,随时间变化
多模态爆发:
图像、视频、语音的“ChatGPT时刻”
2025年,AI的创造力不再局限于文本。图像编辑、视频生成和语音交互都迎来了质的飞跃。
1.图像与视频:小而美的玩家依然能打
与语言模型领域巨头通吃的局面不同,在图像和视频生成领域,专注多模态的“小而美”实验室依然能与谷歌、OpenAI等巨头同台竞技。像Midjourney、Runway、Luma Labs等公司,在特定模态上持续推出具有竞争力的模型。

2. 语音与音乐:原生音频推理,为语音智能体奠基
2025年,语音AI取得了巨大进步,特别是“原生语音到语音”(S2S)推理模型的成熟。xAI在音频推理 benchmarks上成为新 leader。这种能直接处理声学信息、无需LLM中转的模型,为构建更低延迟、更强上下文理解能力的“语音智能体”奠定了技术基础。

算力基石:
Blackwell落地,挑战者求变
AI模型的飞跃,离不开底层算力基础设施的成熟。2025年,硬件和软件都迈上了新台阶。
1.硬件迭代:Blackwell性能飞跃,HBM内存成焦点
NVIDIA的Blackwell平台(B200/GB200)在2025年全面进入生产阶段,性能较上一代Hopper大幅提升。OpenAI的GPT-5.3 Codex就明确披露是在GB200集群上训练的。而年底宣布的B300,HBM3e内存更是提升50%,成为新焦点。
2. 软件成熟:推理框架三足鼎立
推理软件在2025年显著成熟,市场最终 consolidated 在三大开源框架周围:vLLM、SGLang 和 NVIDIA TensorRT-LLM。软件的成熟让硬件性能得以充分释放。
3. 巨头防守:NVIDIA收购Groq,谷歌TPU稳扎稳打
尽管NVIDIA继续主导市场,但挑战者也在取得战略进展。最具标志性的事件是NVIDIA在12月以约200亿美元收购了Groq,整合其LPU技术。同时,谷歌TPU v6已全面可用,并成功训练了Gemini 2.5 Pro等前沿模型。Anthropic也通过与谷歌和亚马逊的合作,获取了TPU和Trainium芯片的访问权。

结语
回顾2025年,AI行业完成了一次深刻的范式转移。推理能力不再是少数实验室的秘密武器,而成为所有前沿模型的标配。智能体的兴起,让AI从“回答问题”的工具,进化为“执行任务”的伙伴,其影响已开始在软件工程等领域显现。
与此同时,竞争的白热化带来了两个看似矛盾的结果:顶级的智能水平仍在攀升,而获得这些智能的成本却在急剧下降。多模态模型的成熟,则预示着AI将全面渗透到我们视觉、听觉的每一个角落。
展望2026年,正如报告所言,这将是“智能体扩展到一切”的一年。在更强大的硬件、更成熟的软件和更激烈的竞争推动下,一个由AI智能体无处不在的新世界,正在加速向我们走来。