这周的 AI 圈,一个词:全面加速。OpenAI 把 GPT-5.4 的上下文拉到 105 万 token 还让它直接操作你的电脑,Google 用 Gemini 3.1 Flash-Lite 把推理速度翻了 2.5 倍,中国政府在两会上第一次把"智能经济"写进了政府工作报告,Gartner 说今年全球要往 AI 上砸 2.52 万亿美元。
与此同时,华为在 MWC 上亮出了 8192 卡互联的超算底座,小米开始封测手机端 AI Agent,AWS 拉着 Cerebras 要做最快的云端推理。
一个一个来。
头条:GPT-5.4 来了,百万 Token + 原生操控电脑
3 月 5 日,OpenAI 正式发布 GPT-5.4。这是 OpenAI 第一个把前沿推理能力和 GPT-5.3-Codex 级别编程能力整合到一起的主线模型。
三个版本:
| 版本 | 定位 | 适用场景 |
|---|---|---|
| GPT-5.4 Standard | 日常专业使用 | 写作、分析、代码 |
| GPT-5.4 Thinking | 深度多步推理 | 研究、复杂问题 |
| GPT-5.4 Pro | 最大性能 | 前沿科研、工程 |
API 版本支持最大 105 万 token 上下文窗口,这是 OpenAI 有史以来最大的上下文。技术上靠 memory-efficient attention 和 sparse transformer 层实现,在保持上下文连贯性的同时大幅降低计算开销。
但更值得关注的是两个新架构:
Tool Search:模型不再需要一次性加载所有工具定义。它拿到一个轻量级工具列表和搜索能力,需要用哪个工具就现查现用。测试结果:在 MCP Atlas 基准的 250 个任务中,token 用量减少 47%,准确率不变。这对 Agent 场景是个大事。
原生 Computer Use:GPT-5.4 是第一个原生支持电脑操控的通用模型。不是插件,不是第三方集成,是模型本身就能操作应用、执行工作流。OSWorld-Verified 和 WebArena Verified 基准测试都拿了新纪录。
可靠性方面,GPT-5.4 的单条事实主张错误率比 GPT-5.2 降低了 33%,完整响应包含错误的概率降低了 18%。
Tool Search 架构可能比百万上下文本身更重要。它解决了一个 Agent 开发的核心痛点:工具太多时 token 成本爆炸。47% 的 token 节省意味着同样的预算能跑将近两倍的任务。
Google Gemini 3.1 Flash-Lite:极致性价比
3 月 3 日,Google 发布了 Gemini 3.1 Flash-Lite Preview。这不是一个新的旗舰模型,而是一个速度和成本都被压到极限的"工作马"。
跟上一代 Gemini 2.5 Flash 比:
| 指标 | Gemini 2.5 Flash | Gemini 3.1 Flash-Lite | 提升 |
|---|---|---|---|
| 首 Token 延迟 | 基准 | 快 2.5 倍 | +150% |
| 输出速度 | 232 tokens/s | 382 tokens/s | +64% |
| 输入价格 | $0.50/M | $0.25/M | -50% |
| 输出价格 | $3.50/M | $1.50/M | -57% |
Arena.ai 排行榜 Elo 分 1432,GPQA Diamond 86.9%,MMMU Pro 76.8%。
定位很清楚:翻译、摘要、分类这些高吞吐场景。382 tokens/s 的输出速度加上 $0.25/M 的输入价格,几乎是目前市面上性价比最高的生产级模型。
不是所有任务都需要旗舰模型。Flash-Lite 的意义在于:它让那些本来"不值得用 AI"的场景变得值得了。
GLM-5 开源:744B 参数,MIT 许可
智谱 AI 的 GLM-5 在 2 月已经放出,但最近两周的社区测试数据值得说一下。
744B 参数(40B 活跃),基于 28.5T token 训练,集成了 DeepSeek Sparse Attention 降低部署成本,上下文 205K。MIT 许可,完全开源。
价格方面,GLM-5 Reasoning 版本的 API 定价:$1/M 输入,$3.20/M 输出。
| 模型 | 输入价格 | 输出价格 | 许可 |
|---|---|---|---|
| GLM-5 Reasoning | $1/M | $3.20/M | MIT |
| Claude Opus 4.6 | $5/M | $25/M | 商业 |
| GPT-5.4 | $2.50/M | $10/M | 商业 |
SWE-bench Verified 跑出 77.8%,对比 Claude Opus 4.5 的 80.9%。差距在缩小,而价格差距是 5 倍到 8 倍。
在 Artificial Analysis Intelligence Index 上排名前五,是目前全球表现最好的开源模型之一。
中国开源模型的定价策略越来越有意思。不是"便宜一点",是便宜一个数量级。GLM-5 + DeepSeek + MiniMax,三家一起把开源模型的性价比天花板往上顶。
中国两会:首提"智能经济",剑指 10 万亿
3 月 5 日,2026 年政府工作报告首次提出**“打造智能经济新形态”**,深化"人工智能+“行动,推广新一代智能终端和智能体。
这不是一句口号。国家发改委主任在经济主题记者会上给了具体数字:“十五五"末(2030 年),人工智能相关产业规模增长到 10 万亿元以上。
时间表:
| 时间节点 | 目标 |
|---|---|
| 2025 (现状) | 核心产业 1.2 万亿,企业 6200+ 家 |
| 2027 | AI 与 6 大重点领域深度融合,智能终端/智能体普及率超 70% |
| 2030 | AI 全面赋能高质量发展,普及率超 90% |
| 2035 | 全面步入智能经济和智能社会 |
从 1.2 万亿到 10 万亿,5 年翻 8 倍多。这个增速意味着什么?意味着 AI 不再是"科技行业的事”,而是整个中国经济转型的核心引擎。
当一个 14 亿人口的经济体把 AI 列为国家战略并给出 10 万亿的量化目标,这对全球 AI 产业格局的影响,可能比任何一个模型发布都大。
Gartner:2026 全球 AI 支出 2.52 万亿美元
1 月 15 日 Gartner 发布的预测,到现在依然是理解 AI 投资热度最好的参照系。
2.52 万亿美元,同比增长 44%。其中 AI 优化服务器支出增长 49%,占总 AI 支出的 17%。光 AI 基础设施一项就新增了 4010 亿美元。
Gartner 还给了一个有意思的判断:AI 在 2026 年全年处于**“幻灭低谷期”(Trough of Disillusionment)**。这意味着企业采购 AI 的方式正在从"买新概念"变成"从现有供应商买被验证过的方案”。
预计 2027 年全球 AI 支出将达到 3.3 万亿美元。
2.52 万亿,44% 增长,但同时处在幻灭低谷期。这两个信息放在一起很有意思:钱在疯狂涌入,但买单的人已经不再为"demo"买单了,他们要看到 ROI。
华为 MWC 2026:Atlas 950 SuperPod 亮相
3 月 3 日,华为在 MWC 2026 巴塞罗那首次面向海外展示了 Atlas 950 SuperPod 智算超节点。
核心规格:
- 单柜 64 张 NPU 卡,最大支持 8192 卡高速互联
- 8 ExaFLOPS FP8 算力,16 ExaFLOPS FP4 算力
- 基于灵衢互联,超大带宽、超低时延、内存统一编址
国内正式上市时间:2026 年第四季度。
这是华为算力产品第一次在海外大规模展示,信号很明确:在高端 AI 算力市场,华为要给全球客户提供 NVIDIA 之外的选择。
快讯速览
淘宝闪购开源"白泽"大模型
2 月 28 日发布,基于阿里云 Qwen3-VL-8B 深度训练的垂直领域视觉模型。功能:24 小时监控后厨直播,自动识别墙面/台面清洁度、垃圾桶溢出、生熟分离、厨师是否戴帽。目前已覆盖 100+ 生产场景,调用量超 10 亿次。Apache 2.0 开源。
不是什么惊天大模型,但它代表了 AI 落地最接地气的一面:用视觉模型盯后厨卫生。
小米 AI Agent “龙虾” 开启封测
3 月 6 日,Xiaomi miclaw(昵称"龙虾")开启小范围封测。这是国内首款移动端类 OpenClaw 的 AI Agent,基于小米 MiMo 大模型,覆盖 5 款 Xiaomi 17 系列机型。
核心能力:一句话操控手机和米家设备,自主选择系统级工具完成任务。探索从"对话能力"到"系统级执行能力"的落地。
采用邀请制,官方不推荐在主力机上升级。这说明还很早期,但方向是对的。
AWS + Cerebras:云端最快 AI 推理
3 月 13 日,AWS 宣布与 Cerebras 合作,将 Cerebras CS-3 芯片接入 Amazon Bedrock。方案架构:AWS Trainium 负责 prefill,Cerebras CS-3 负责 decode。
CS-3 的内存带宽比最快的 GPU 高出数千倍,号称同等硬件占地面积提供 5 倍高速 token 容量。AWS 是 Cerebras 解耦推理方案的第一家云提供商。
GPU 不再是 AI 推理的唯一选项。这个合作打开了异构计算的想象空间。
NIST 发布 AI Agent 标准倡议
2 月 17 日,美国国家标准与技术研究院(NIST)正式启动 AI Agent Standards Initiative,围绕三个支柱:行业主导的 Agent 标准制定、开源协议开发维护、Agent 安全与身份研究。
目标:确保下一代自主 AI Agent 能安全运行、跨系统互操作、被用户信任。
4 月起将举办分行业听证会。当 Agent 从实验走向生产,标准化的需求变得紧迫。NIST 出手,说明这件事已经上了国家议程。
本周观点
这期周刊写下来,最强烈的感受是:AI 的竞争已经从"谁的模型更聪明"转向了"谁的生态更完整"。
GPT-5.4 的 Tool Search 架构不是在比谁的参数多,而是在解决 Agent 工具调用的工程问题。Gemini 3.1 Flash-Lite 不是在追求 SOTA,而是把成本压到让更多场景"用得起"。华为不是在跟 NVIDIA 比单卡性能,而是在提供另一套完整的算力方案。小米不是在做一个聊天机器人,而是在把 AI 植入手机操作系统的每一层。
2026 年的 AI 竞争,拼的不再是单点突破,而是系统性能力。
模型只是起点,生态才是终局。
下周见。
本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。