AI 周刊 #15：GPT-5.4 正式发布、Gemini 2.5 Pro 全面可用、AI 预测癌症扩散准确率 80%

AIEII

这周最大的新闻是 OpenAI 终于把 GPT-5.4 放出来了。不是小幅迭代，是那种"重新定义产品形态"级别的更新。

与此同时，Google 的 Gemini 2.5 Pro 也全面开放，AI 在医疗领域又拿下了一个里程碑式的成果，AMD 在笔记本芯片上押注 AI。

一个一个说。

头条：GPT-5.4 发布，OpenAI 的"全能旗舰"

3 月 5 日，OpenAI 正式发布 GPT-5.4。这不是一次常规升级，而是把之前分散在不同模型里的能力整合到了一个模型中。

核心变化：

GPT-5.4 把 GPT-5.3-Codex 的编码能力、o3 的推理能力、以及全新的计算机操作能力打包到了一起。你不再需要切换模型来应对不同任务。

几个关键数据：

能力	GPT-5.4	GPT-5.2	提升
上下文窗口	110 万 token	12.8 万 token	8.6x
GDPval 基准	83.0%	71.2%	+11.8pp
单条事实错误率	-33%	基线	-
完整回复错误率	-18%	基线	-

原生计算机操作 是这次最值得关注的新功能。GPT-5.4 是第一个出厂就支持直接操作电脑的通用模型。它可以打开应用、点击按钮、填表单、在不同软件之间切换。不是通过截图识别屏幕，而是原生集成的能力。

工具搜索（Tool Search） 是 API 层面的重要更新。以前调用工具要把所有工具定义一股脑塞给模型，token 消耗巨大。现在 GPT-5.4 可以先拿到一个轻量列表，按需查找具体工具定义。OpenAI 的测试显示 token 用量减少 47%，准确率不变。

还有前置规划（Upfront Planning）：GPT-5.4 Thinking 版本在开始深度思考前会先给你一个计划概要，你可以中途调整方向，而不是等它想完再发现方向错了。

GPT-5.4 的思路很清晰：不是做一个"更大的语言模型"，而是做一个"更好用的 AI 工具"。计算机操作、工具搜索、前置规划，这些都是在解决实际使用中的痛点。

Google Gemini 2.5 Pro 全面可用

Google 本周宣布 Gemini 2.5 Pro 正式 GA（General Availability），面向所有开发者和企业用户开放。

Gemini 2.5 Pro 的定位是"最强推理模型"。几个亮点：

百万 token 上下文窗口：和 GPT-5.4 类似的超长上下文。可以一次性处理整本书、完整的法律合同、或者一个中型项目的全部代码。

Deep Think 模式：针对数学和编码等高复杂度任务设计。模型在回答前会考虑多个假设，类似于人类的"先想几种可能再下结论"。

思维摘要（Thought Summaries）：把模型的原始推理过程整理成结构化摘要。对企业用户来说，这意味着可以审计 AI 的决策过程，确保符合业务逻辑。

实时 API（Live API）：支持流式音频、视频和文本输入，延迟极低。可以让 AI 参与实时会议、监控视频流、或者进行类人对话。

前端和 UI 开发能力也有明显提升，这对全栈开发者来说是好消息。

Google 在 AI 模型上的策略和 OpenAI 越来越像：不只是追求更高的跑分，而是在实际开发场景中提供更好的体验。Gemini 2.5 Pro 的 Live API 和 Deep Think 模式，都是面向"把 AI 用起来"设计的功能。

AI 预测癌症扩散：准确率约 80%

这条新闻没有前两条那么"炸裂"，但可能是本周最有长期影响的消息。

一个名为 MangroveGS 的 AI 模型在最新研究中展示了预测癌症扩散风险的能力，准确率约 80%。更重要的是，这个模型可以跨多种癌症类型工作，不局限于某一种。

传统的癌症扩散预测主要依赖医生的经验和有限的标志物检测。MangroveGS 通过分析肿瘤的基因组特征和微环境数据，能够更早、更准确地判断癌症是否会转移。

几个关键点：

跨癌症类型：不是只能预测某一种癌症，而是在多种实体瘤上都有效
早期预警：在影像学还看不到转移迹象时，就能给出风险评分
辅助决策：帮医生判断是否需要更积极的治疗方案

上期我们讲了 DeepRare 在罕见病诊断上超过人类医生。这周 MangroveGS 在癌症预测上又拿下一个节点。AI 医疗不再是"概念验证"，而是在一个接一个的具体问题上证明自己。

癌症的可怕之处不只是肿瘤本身，而是转移。如果 AI 能在癌症扩散之前就发出预警，让医生提前干预，这对患者生存率的提升可能是颠覆性的。80% 的准确率还不够完美，但已经比很多现有方法强了。

AMD Ryzen AI 400：笔记本端的 AI 加速

AMD 发布了 Ryzen AI 400 系列处理器，专为笔记本设计，核心卖点是升级的 NPU（神经处理单元）。

NPU 是什么？简单说，就是芯片里专门跑 AI 任务的部分。GPU 是通用的并行计算，NPU 是专门为 AI 推理优化的。

Ryzen AI 400 的 NPU 相比上一代有显著提升，可以在本地完成：

实时翻译（不依赖云端）
图像和视频生成
文档摘要和分析
语音识别和转录

这意味着未来的笔记本电脑上，很多 AI 任务不需要联网就能跑。对隐私敏感的用户来说，这是一个重要的方向。

同一时期，Samsung 宣布计划到 2026 年底将搭载 Gemini AI 的设备扩大到 8 亿台。Apple 则选择和 Google 合作，用 1.2 万亿参数的 Gemini 模型跑在 Apple Private Cloud Compute 上，兼顾能力和隐私。

芯片端的 AI 能力正在成为标配。Intel 有 Core Ultra 系列，AMD 有 Ryzen AI 400，Qualcomm 有 Snapdragon X Elite。竞争的结果是消费者受益：每一代 NPU 都更强，本地 AI 的能力越来越接近云端。

MiniMax M2.5：中国 AI 的性价比之王

国际市场上，MiniMax 的 M2.5 模型引起了不小的关注。

评测显示，M2.5 在多项基准测试上接近 Claude Opus 4.6 的表现，但价格只有后者的一个零头。对于预算有限但需要高质量模型的开发者来说，这是一个值得认真考虑的选项。

同期，Qwen 3.5 也正式发布，主打 “Agentic” 能力：

自主执行多步骤任务
多模态输入（文本、图片、视频）
可以分析长达 2 小时的视频内容

中国 AI 厂商在模型能力上的追赶速度非常快。从 DeepSeek 到 MiniMax 到 Qwen，“便宜且好用"正在成为中国模型的标签。

快讯速览

OpenAI GPT-5.4 在 GDPval 基准上匹配或超越 83% 的人类专业人员，覆盖 44 个职业
biotech 领域 多个 AI 辅助发现的候选药物进入中晚期临床试验，2026 年被称为"AI 制药验证之年”
Apple + Google 合作方案确认：Gemini 1.2T 参数模型通过 Apple Private Cloud Compute 提供服务，平衡能力与隐私
NVIDIA Rubin 超级计算平台 公布，下一代 AI 基础设施的硬件标杆

本周观点

这周的主题是"收敛"。

GPT-5.4 把散落在多个模型里的能力收敛成一个。Gemini 2.5 Pro 把实验功能收敛成正式产品。MangroveGS 把 AI 医疗从"听起来厉害"收敛成"准确率 80%"。AMD 把 AI 从云端收敛到笔记本芯片里。

2024 年是 AI 的"发散期"：每天都有新概念、新模型、新方向。2026 年正在进入"收敛期"：概念变成产品，Demo 变成 GA，实验室成果变成临床数据。

收敛不代表减速。恰恰相反，这是加速的前兆。当基础设施和标准开始稳定的时候，应用层的爆发才真正开始。

下周见。

本文首发于 aieii.com，一个关注 AI 工具与趋势的中文内容平台。