Newsroom
AIEII

AI 周刊 #15:GPT-5.4 正式发布、Gemini 2.5 Pro 全面可用、AI 预测癌症扩散准确率 80%

OpenAI 发布 GPT-5.4 旗舰模型,原生支持计算机操作;Google Gemini 2.5 Pro 全面上线,百万 token 上下文;AI 癌症预测模型 MangroveGS 准确率达 80%;AMD 推出 Ryzen AI 400 系列。

2026年03月23日

这周最大的新闻是 OpenAI 终于把 GPT-5.4 放出来了。不是小幅迭代,是那种"重新定义产品形态"级别的更新。

与此同时,Google 的 Gemini 2.5 Pro 也全面开放,AI 在医疗领域又拿下了一个里程碑式的成果,AMD 在笔记本芯片上押注 AI。

一个一个说。


头条:GPT-5.4 发布,OpenAI 的"全能旗舰"

3 月 5 日,OpenAI 正式发布 GPT-5.4。这不是一次常规升级,而是把之前分散在不同模型里的能力整合到了一个模型中。

核心变化

GPT-5.4 把 GPT-5.3-Codex 的编码能力、o3 的推理能力、以及全新的计算机操作能力打包到了一起。你不再需要切换模型来应对不同任务。

几个关键数据:

能力GPT-5.4GPT-5.2提升
上下文窗口110 万 token12.8 万 token8.6x
GDPval 基准83.0%71.2%+11.8pp
单条事实错误率-33%基线-
完整回复错误率-18%基线-

原生计算机操作 是这次最值得关注的新功能。GPT-5.4 是第一个出厂就支持直接操作电脑的通用模型。它可以打开应用、点击按钮、填表单、在不同软件之间切换。不是通过截图识别屏幕,而是原生集成的能力。

工具搜索(Tool Search) 是 API 层面的重要更新。以前调用工具要把所有工具定义一股脑塞给模型,token 消耗巨大。现在 GPT-5.4 可以先拿到一个轻量列表,按需查找具体工具定义。OpenAI 的测试显示 token 用量减少 47%,准确率不变。

还有前置规划(Upfront Planning):GPT-5.4 Thinking 版本在开始深度思考前会先给你一个计划概要,你可以中途调整方向,而不是等它想完再发现方向错了。

GPT-5.4 的思路很清晰:不是做一个"更大的语言模型",而是做一个"更好用的 AI 工具"。计算机操作、工具搜索、前置规划,这些都是在解决实际使用中的痛点。


Google Gemini 2.5 Pro 全面可用

Google 本周宣布 Gemini 2.5 Pro 正式 GA(General Availability),面向所有开发者和企业用户开放。

Gemini 2.5 Pro 的定位是"最强推理模型"。几个亮点:

百万 token 上下文窗口:和 GPT-5.4 类似的超长上下文。可以一次性处理整本书、完整的法律合同、或者一个中型项目的全部代码。

Deep Think 模式:针对数学和编码等高复杂度任务设计。模型在回答前会考虑多个假设,类似于人类的"先想几种可能再下结论"。

思维摘要(Thought Summaries):把模型的原始推理过程整理成结构化摘要。对企业用户来说,这意味着可以审计 AI 的决策过程,确保符合业务逻辑。

实时 API(Live API):支持流式音频、视频和文本输入,延迟极低。可以让 AI 参与实时会议、监控视频流、或者进行类人对话。

前端和 UI 开发能力也有明显提升,这对全栈开发者来说是好消息。

Google 在 AI 模型上的策略和 OpenAI 越来越像:不只是追求更高的跑分,而是在实际开发场景中提供更好的体验。Gemini 2.5 Pro 的 Live API 和 Deep Think 模式,都是面向"把 AI 用起来"设计的功能。


AI 预测癌症扩散:准确率约 80%

这条新闻没有前两条那么"炸裂",但可能是本周最有长期影响的消息。

一个名为 MangroveGS 的 AI 模型在最新研究中展示了预测癌症扩散风险的能力,准确率约 80%。更重要的是,这个模型可以跨多种癌症类型工作,不局限于某一种。

传统的癌症扩散预测主要依赖医生的经验和有限的标志物检测。MangroveGS 通过分析肿瘤的基因组特征和微环境数据,能够更早、更准确地判断癌症是否会转移。

几个关键点:

  1. 跨癌症类型:不是只能预测某一种癌症,而是在多种实体瘤上都有效
  2. 早期预警:在影像学还看不到转移迹象时,就能给出风险评分
  3. 辅助决策:帮医生判断是否需要更积极的治疗方案

上期我们讲了 DeepRare 在罕见病诊断上超过人类医生。这周 MangroveGS 在癌症预测上又拿下一个节点。AI 医疗不再是"概念验证",而是在一个接一个的具体问题上证明自己。

癌症的可怕之处不只是肿瘤本身,而是转移。如果 AI 能在癌症扩散之前就发出预警,让医生提前干预,这对患者生存率的提升可能是颠覆性的。80% 的准确率还不够完美,但已经比很多现有方法强了。


AMD Ryzen AI 400:笔记本端的 AI 加速

AMD 发布了 Ryzen AI 400 系列处理器,专为笔记本设计,核心卖点是升级的 NPU(神经处理单元)。

NPU 是什么?简单说,就是芯片里专门跑 AI 任务的部分。GPU 是通用的并行计算,NPU 是专门为 AI 推理优化的。

Ryzen AI 400 的 NPU 相比上一代有显著提升,可以在本地完成:

  • 实时翻译(不依赖云端)
  • 图像和视频生成
  • 文档摘要和分析
  • 语音识别和转录

这意味着未来的笔记本电脑上,很多 AI 任务不需要联网就能跑。对隐私敏感的用户来说,这是一个重要的方向。

同一时期,Samsung 宣布计划到 2026 年底将搭载 Gemini AI 的设备扩大到 8 亿台。Apple 则选择和 Google 合作,用 1.2 万亿参数的 Gemini 模型跑在 Apple Private Cloud Compute 上,兼顾能力和隐私。

芯片端的 AI 能力正在成为标配。Intel 有 Core Ultra 系列,AMD 有 Ryzen AI 400,Qualcomm 有 Snapdragon X Elite。竞争的结果是消费者受益:每一代 NPU 都更强,本地 AI 的能力越来越接近云端。


MiniMax M2.5:中国 AI 的性价比之王

国际市场上,MiniMax 的 M2.5 模型引起了不小的关注。

评测显示,M2.5 在多项基准测试上接近 Claude Opus 4.6 的表现,但价格只有后者的一个零头。对于预算有限但需要高质量模型的开发者来说,这是一个值得认真考虑的选项。

同期,Qwen 3.5 也正式发布,主打 “Agentic” 能力:

  • 自主执行多步骤任务
  • 多模态输入(文本、图片、视频)
  • 可以分析长达 2 小时的视频内容

中国 AI 厂商在模型能力上的追赶速度非常快。从 DeepSeek 到 MiniMax 到 Qwen,“便宜且好用"正在成为中国模型的标签。


快讯速览

  • OpenAI GPT-5.4 在 GDPval 基准上匹配或超越 83% 的人类专业人员,覆盖 44 个职业
  • biotech 领域 多个 AI 辅助发现的候选药物进入中晚期临床试验,2026 年被称为"AI 制药验证之年”
  • Apple + Google 合作方案确认:Gemini 1.2T 参数模型通过 Apple Private Cloud Compute 提供服务,平衡能力与隐私
  • NVIDIA Rubin 超级计算平台 公布,下一代 AI 基础设施的硬件标杆

本周观点

这周的主题是"收敛"。

GPT-5.4 把散落在多个模型里的能力收敛成一个。Gemini 2.5 Pro 把实验功能收敛成正式产品。MangroveGS 把 AI 医疗从"听起来厉害"收敛成"准确率 80%"。AMD 把 AI 从云端收敛到笔记本芯片里。

2024 年是 AI 的"发散期":每天都有新概念、新模型、新方向。2026 年正在进入"收敛期":概念变成产品,Demo 变成 GA,实验室成果变成临床数据。

收敛不代表减速。恰恰相反,这是加速的前兆。当基础设施和标准开始稳定的时候,应用层的爆发才真正开始。

下周见。


本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← AIEII 2026 Q1 回顾:35 篇文章、3 个新频道 … AI 周刊 #16:地缘冲突下的 AI 资产、Qwen … →
💬 Comments
6 min read