这周最大的新闻是 OpenAI 终于把 GPT-5.4 放出来了。不是小幅迭代,是那种"重新定义产品形态"级别的更新。
与此同时,Google 的 Gemini 2.5 Pro 也全面开放,AI 在医疗领域又拿下了一个里程碑式的成果,AMD 在笔记本芯片上押注 AI。
一个一个说。
头条:GPT-5.4 发布,OpenAI 的"全能旗舰"
3 月 5 日,OpenAI 正式发布 GPT-5.4。这不是一次常规升级,而是把之前分散在不同模型里的能力整合到了一个模型中。
核心变化:
GPT-5.4 把 GPT-5.3-Codex 的编码能力、o3 的推理能力、以及全新的计算机操作能力打包到了一起。你不再需要切换模型来应对不同任务。
几个关键数据:
| 能力 | GPT-5.4 | GPT-5.2 | 提升 |
|---|---|---|---|
| 上下文窗口 | 110 万 token | 12.8 万 token | 8.6x |
| GDPval 基准 | 83.0% | 71.2% | +11.8pp |
| 单条事实错误率 | -33% | 基线 | - |
| 完整回复错误率 | -18% | 基线 | - |
原生计算机操作 是这次最值得关注的新功能。GPT-5.4 是第一个出厂就支持直接操作电脑的通用模型。它可以打开应用、点击按钮、填表单、在不同软件之间切换。不是通过截图识别屏幕,而是原生集成的能力。
工具搜索(Tool Search) 是 API 层面的重要更新。以前调用工具要把所有工具定义一股脑塞给模型,token 消耗巨大。现在 GPT-5.4 可以先拿到一个轻量列表,按需查找具体工具定义。OpenAI 的测试显示 token 用量减少 47%,准确率不变。
还有前置规划(Upfront Planning):GPT-5.4 Thinking 版本在开始深度思考前会先给你一个计划概要,你可以中途调整方向,而不是等它想完再发现方向错了。
GPT-5.4 的思路很清晰:不是做一个"更大的语言模型",而是做一个"更好用的 AI 工具"。计算机操作、工具搜索、前置规划,这些都是在解决实际使用中的痛点。
Google Gemini 2.5 Pro 全面可用
Google 本周宣布 Gemini 2.5 Pro 正式 GA(General Availability),面向所有开发者和企业用户开放。
Gemini 2.5 Pro 的定位是"最强推理模型"。几个亮点:
百万 token 上下文窗口:和 GPT-5.4 类似的超长上下文。可以一次性处理整本书、完整的法律合同、或者一个中型项目的全部代码。
Deep Think 模式:针对数学和编码等高复杂度任务设计。模型在回答前会考虑多个假设,类似于人类的"先想几种可能再下结论"。
思维摘要(Thought Summaries):把模型的原始推理过程整理成结构化摘要。对企业用户来说,这意味着可以审计 AI 的决策过程,确保符合业务逻辑。
实时 API(Live API):支持流式音频、视频和文本输入,延迟极低。可以让 AI 参与实时会议、监控视频流、或者进行类人对话。
前端和 UI 开发能力也有明显提升,这对全栈开发者来说是好消息。
Google 在 AI 模型上的策略和 OpenAI 越来越像:不只是追求更高的跑分,而是在实际开发场景中提供更好的体验。Gemini 2.5 Pro 的 Live API 和 Deep Think 模式,都是面向"把 AI 用起来"设计的功能。
AI 预测癌症扩散:准确率约 80%
这条新闻没有前两条那么"炸裂",但可能是本周最有长期影响的消息。
一个名为 MangroveGS 的 AI 模型在最新研究中展示了预测癌症扩散风险的能力,准确率约 80%。更重要的是,这个模型可以跨多种癌症类型工作,不局限于某一种。
传统的癌症扩散预测主要依赖医生的经验和有限的标志物检测。MangroveGS 通过分析肿瘤的基因组特征和微环境数据,能够更早、更准确地判断癌症是否会转移。
几个关键点:
- 跨癌症类型:不是只能预测某一种癌症,而是在多种实体瘤上都有效
- 早期预警:在影像学还看不到转移迹象时,就能给出风险评分
- 辅助决策:帮医生判断是否需要更积极的治疗方案
上期我们讲了 DeepRare 在罕见病诊断上超过人类医生。这周 MangroveGS 在癌症预测上又拿下一个节点。AI 医疗不再是"概念验证",而是在一个接一个的具体问题上证明自己。
癌症的可怕之处不只是肿瘤本身,而是转移。如果 AI 能在癌症扩散之前就发出预警,让医生提前干预,这对患者生存率的提升可能是颠覆性的。80% 的准确率还不够完美,但已经比很多现有方法强了。
AMD Ryzen AI 400:笔记本端的 AI 加速
AMD 发布了 Ryzen AI 400 系列处理器,专为笔记本设计,核心卖点是升级的 NPU(神经处理单元)。
NPU 是什么?简单说,就是芯片里专门跑 AI 任务的部分。GPU 是通用的并行计算,NPU 是专门为 AI 推理优化的。
Ryzen AI 400 的 NPU 相比上一代有显著提升,可以在本地完成:
- 实时翻译(不依赖云端)
- 图像和视频生成
- 文档摘要和分析
- 语音识别和转录
这意味着未来的笔记本电脑上,很多 AI 任务不需要联网就能跑。对隐私敏感的用户来说,这是一个重要的方向。
同一时期,Samsung 宣布计划到 2026 年底将搭载 Gemini AI 的设备扩大到 8 亿台。Apple 则选择和 Google 合作,用 1.2 万亿参数的 Gemini 模型跑在 Apple Private Cloud Compute 上,兼顾能力和隐私。
芯片端的 AI 能力正在成为标配。Intel 有 Core Ultra 系列,AMD 有 Ryzen AI 400,Qualcomm 有 Snapdragon X Elite。竞争的结果是消费者受益:每一代 NPU 都更强,本地 AI 的能力越来越接近云端。
MiniMax M2.5:中国 AI 的性价比之王
国际市场上,MiniMax 的 M2.5 模型引起了不小的关注。
评测显示,M2.5 在多项基准测试上接近 Claude Opus 4.6 的表现,但价格只有后者的一个零头。对于预算有限但需要高质量模型的开发者来说,这是一个值得认真考虑的选项。
同期,Qwen 3.5 也正式发布,主打 “Agentic” 能力:
- 自主执行多步骤任务
- 多模态输入(文本、图片、视频)
- 可以分析长达 2 小时的视频内容
中国 AI 厂商在模型能力上的追赶速度非常快。从 DeepSeek 到 MiniMax 到 Qwen,“便宜且好用"正在成为中国模型的标签。
快讯速览
- OpenAI GPT-5.4 在 GDPval 基准上匹配或超越 83% 的人类专业人员,覆盖 44 个职业
- biotech 领域 多个 AI 辅助发现的候选药物进入中晚期临床试验,2026 年被称为"AI 制药验证之年”
- Apple + Google 合作方案确认:Gemini 1.2T 参数模型通过 Apple Private Cloud Compute 提供服务,平衡能力与隐私
- NVIDIA Rubin 超级计算平台 公布,下一代 AI 基础设施的硬件标杆
本周观点
这周的主题是"收敛"。
GPT-5.4 把散落在多个模型里的能力收敛成一个。Gemini 2.5 Pro 把实验功能收敛成正式产品。MangroveGS 把 AI 医疗从"听起来厉害"收敛成"准确率 80%"。AMD 把 AI 从云端收敛到笔记本芯片里。
2024 年是 AI 的"发散期":每天都有新概念、新模型、新方向。2026 年正在进入"收敛期":概念变成产品,Demo 变成 GA,实验室成果变成临床数据。
收敛不代表减速。恰恰相反,这是加速的前兆。当基础设施和标准开始稳定的时候,应用层的爆发才真正开始。
下周见。
本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。