AI 周刊 #13：GPT-5.4 解锁百万 Token、Gemini 3.1 快了 2.5 倍、中国 AI 产业剑指 10 万亿

AIEII

这周的 AI 圈，一个词：全面加速。OpenAI 把 GPT-5.4 的上下文拉到 105 万 token 还让它直接操作你的电脑，Google 用 Gemini 3.1 Flash-Lite 把推理速度翻了 2.5 倍，中国政府在两会上第一次把"智能经济"写进了政府工作报告，Gartner 说今年全球要往 AI 上砸 2.52 万亿美元。

与此同时，华为在 MWC 上亮出了 8192 卡互联的超算底座，小米开始封测手机端 AI Agent，AWS 拉着 Cerebras 要做最快的云端推理。

一个一个来。

头条：GPT-5.4 来了，百万 Token + 原生操控电脑

3 月 5 日，OpenAI 正式发布 GPT-5.4。这是 OpenAI 第一个把前沿推理能力和 GPT-5.3-Codex 级别编程能力整合到一起的主线模型。

三个版本：

版本	定位	适用场景
GPT-5.4 Standard	日常专业使用	写作、分析、代码
GPT-5.4 Thinking	深度多步推理	研究、复杂问题
GPT-5.4 Pro	最大性能	前沿科研、工程

API 版本支持最大 105 万 token 上下文窗口，这是 OpenAI 有史以来最大的上下文。技术上靠 memory-efficient attention 和 sparse transformer 层实现，在保持上下文连贯性的同时大幅降低计算开销。

但更值得关注的是两个新架构：

Tool Search：模型不再需要一次性加载所有工具定义。它拿到一个轻量级工具列表和搜索能力，需要用哪个工具就现查现用。测试结果：在 MCP Atlas 基准的 250 个任务中，token 用量减少 47%，准确率不变。这对 Agent 场景是个大事。

原生 Computer Use：GPT-5.4 是第一个原生支持电脑操控的通用模型。不是插件，不是第三方集成，是模型本身就能操作应用、执行工作流。OSWorld-Verified 和 WebArena Verified 基准测试都拿了新纪录。

可靠性方面，GPT-5.4 的单条事实主张错误率比 GPT-5.2 降低了 33%，完整响应包含错误的概率降低了 18%。

Tool Search 架构可能比百万上下文本身更重要。它解决了一个 Agent 开发的核心痛点：工具太多时 token 成本爆炸。47% 的 token 节省意味着同样的预算能跑将近两倍的任务。

Google Gemini 3.1 Flash-Lite：极致性价比

3 月 3 日，Google 发布了 Gemini 3.1 Flash-Lite Preview。这不是一个新的旗舰模型，而是一个速度和成本都被压到极限的"工作马"。

跟上一代 Gemini 2.5 Flash 比：

指标	Gemini 2.5 Flash	Gemini 3.1 Flash-Lite	提升
首 Token 延迟	基准	快 2.5 倍	+150%
输出速度	232 tokens/s	382 tokens/s	+64%
输入价格	$0.50/M	$0.25/M	-50%
输出价格	$3.50/M	$1.50/M	-57%

Arena.ai 排行榜 Elo 分 1432，GPQA Diamond 86.9%，MMMU Pro 76.8%。

定位很清楚：翻译、摘要、分类这些高吞吐场景。382 tokens/s 的输出速度加上 $0.25/M 的输入价格，几乎是目前市面上性价比最高的生产级模型。

不是所有任务都需要旗舰模型。Flash-Lite 的意义在于：它让那些本来"不值得用 AI"的场景变得值得了。

GLM-5 开源：744B 参数，MIT 许可

智谱 AI 的 GLM-5 在 2 月已经放出，但最近两周的社区测试数据值得说一下。

744B 参数（40B 活跃），基于 28.5T token 训练，集成了 DeepSeek Sparse Attention 降低部署成本，上下文 205K。MIT 许可，完全开源。

价格方面，GLM-5 Reasoning 版本的 API 定价：$1/M 输入，$3.20/M 输出。

模型	输入价格	输出价格	许可
GLM-5 Reasoning	$1/M	$3.20/M	MIT
Claude Opus 4.6	$5/M	$25/M	商业
GPT-5.4	$2.50/M	$10/M	商业

SWE-bench Verified 跑出 77.8%，对比 Claude Opus 4.5 的 80.9%。差距在缩小，而价格差距是 5 倍到 8 倍。

在 Artificial Analysis Intelligence Index 上排名前五，是目前全球表现最好的开源模型之一。

中国开源模型的定价策略越来越有意思。不是"便宜一点"，是便宜一个数量级。GLM-5 + DeepSeek + MiniMax，三家一起把开源模型的性价比天花板往上顶。

中国两会：首提"智能经济"，剑指 10 万亿

3 月 5 日，2026 年政府工作报告首次提出**“打造智能经济新形态”**，深化"人工智能+“行动，推广新一代智能终端和智能体。

这不是一句口号。国家发改委主任在经济主题记者会上给了具体数字：“十五五"末（2030 年），人工智能相关产业规模增长到 10 万亿元以上。

时间表：

时间节点	目标
2025 (现状)	核心产业 1.2 万亿，企业 6200+ 家
2027	AI 与 6 大重点领域深度融合，智能终端/智能体普及率超 70%
2030	AI 全面赋能高质量发展，普及率超 90%
2035	全面步入智能经济和智能社会

从 1.2 万亿到 10 万亿，5 年翻 8 倍多。这个增速意味着什么？意味着 AI 不再是"科技行业的事”，而是整个中国经济转型的核心引擎。

当一个 14 亿人口的经济体把 AI 列为国家战略并给出 10 万亿的量化目标，这对全球 AI 产业格局的影响，可能比任何一个模型发布都大。

Gartner：2026 全球 AI 支出 2.52 万亿美元

1 月 15 日 Gartner 发布的预测，到现在依然是理解 AI 投资热度最好的参照系。

2.52 万亿美元，同比增长 44%。其中 AI 优化服务器支出增长 49%，占总 AI 支出的 17%。光 AI 基础设施一项就新增了 4010 亿美元。

Gartner 还给了一个有意思的判断：AI 在 2026 年全年处于**“幻灭低谷期”（Trough of Disillusionment）**。这意味着企业采购 AI 的方式正在从"买新概念"变成"从现有供应商买被验证过的方案”。

预计 2027 年全球 AI 支出将达到 3.3 万亿美元。

2.52 万亿，44% 增长，但同时处在幻灭低谷期。这两个信息放在一起很有意思：钱在疯狂涌入，但买单的人已经不再为"demo"买单了，他们要看到 ROI。

华为 MWC 2026：Atlas 950 SuperPod 亮相

3 月 3 日，华为在 MWC 2026 巴塞罗那首次面向海外展示了 Atlas 950 SuperPod 智算超节点。

核心规格：

单柜 64 张 NPU 卡，最大支持 8192 卡高速互联
8 ExaFLOPS FP8 算力，16 ExaFLOPS FP4 算力
基于灵衢互联，超大带宽、超低时延、内存统一编址

国内正式上市时间：2026 年第四季度。

这是华为算力产品第一次在海外大规模展示，信号很明确：在高端 AI 算力市场，华为要给全球客户提供 NVIDIA 之外的选择。

快讯速览

淘宝闪购开源"白泽"大模型

2 月 28 日发布，基于阿里云 Qwen3-VL-8B 深度训练的垂直领域视觉模型。功能：24 小时监控后厨直播，自动识别墙面/台面清洁度、垃圾桶溢出、生熟分离、厨师是否戴帽。目前已覆盖 100+ 生产场景，调用量超 10 亿次。Apache 2.0 开源。

不是什么惊天大模型，但它代表了 AI 落地最接地气的一面：用视觉模型盯后厨卫生。

小米 AI Agent “龙虾” 开启封测

3 月 6 日，Xiaomi miclaw（昵称"龙虾"）开启小范围封测。这是国内首款移动端类 OpenClaw 的 AI Agent，基于小米 MiMo 大模型，覆盖 5 款 Xiaomi 17 系列机型。

核心能力：一句话操控手机和米家设备，自主选择系统级工具完成任务。探索从"对话能力"到"系统级执行能力"的落地。

采用邀请制，官方不推荐在主力机上升级。这说明还很早期，但方向是对的。

AWS + Cerebras：云端最快 AI 推理

3 月 13 日，AWS 宣布与 Cerebras 合作，将 Cerebras CS-3 芯片接入 Amazon Bedrock。方案架构：AWS Trainium 负责 prefill，Cerebras CS-3 负责 decode。

CS-3 的内存带宽比最快的 GPU 高出数千倍，号称同等硬件占地面积提供 5 倍高速 token 容量。AWS 是 Cerebras 解耦推理方案的第一家云提供商。

GPU 不再是 AI 推理的唯一选项。这个合作打开了异构计算的想象空间。

NIST 发布 AI Agent 标准倡议

2 月 17 日，美国国家标准与技术研究院（NIST）正式启动 AI Agent Standards Initiative，围绕三个支柱：行业主导的 Agent 标准制定、开源协议开发维护、Agent 安全与身份研究。

目标：确保下一代自主 AI Agent 能安全运行、跨系统互操作、被用户信任。

4 月起将举办分行业听证会。当 Agent 从实验走向生产，标准化的需求变得紧迫。NIST 出手，说明这件事已经上了国家议程。

本周观点

这期周刊写下来，最强烈的感受是：AI 的竞争已经从"谁的模型更聪明"转向了"谁的生态更完整"。

GPT-5.4 的 Tool Search 架构不是在比谁的参数多，而是在解决 Agent 工具调用的工程问题。Gemini 3.1 Flash-Lite 不是在追求 SOTA，而是把成本压到让更多场景"用得起"。华为不是在跟 NVIDIA 比单卡性能，而是在提供另一套完整的算力方案。小米不是在做一个聊天机器人，而是在把 AI 植入手机操作系统的每一层。

2026 年的 AI 竞争，拼的不再是单点突破，而是系统性能力。

模型只是起点，生态才是终局。

下周见。

本文首发于 aieii.com，一个关注 AI 工具与趋势的中文内容平台。