前沿模型观察 · 2026 年仲夏号 — 各大厂商 AI 模型最新研究成果对比

一表总览

The Big Table

十一家厂商当前对外可见的最新旗舰／最新动作，按国际与中国分区排列。"开源"指权重公开可下载。

厂商	最新旗舰 / 动作	发布时间	形态	关键亮点	定价（每百万 token）
OpenAI美国	GPT-5.6 Sol / Terra / Luna 预览在售旗舰 GPT-5.5	2026-06-26 预览	闭源	Terminal-Bench 2.1 新 SOTA；新增 max 推理档与调度子智能体的 ultra 模式；Cerebras 上最高 750 token/s	Sol：$5 / $30（与 GPT-5.5 持平）
Anthropic美国	Claude Fable 5 / Mythos 5（Mythos 级新档位）＋ Sonnet 5	2026-06-29（Sonnet 5）	闭源	Sonnet 5 性能逼近 Opus 4.8，长程智能体任务大幅增强；Fable 5 主打百万 token 级长程专注	Sonnet 5 限时 $2 / $10（8 月末恢复 $3 / $15）
Google DeepMind美国	Gemini 3.5 Flash ＋ Gemini Omni Flash ＋ Nano Banana 2 Lite	2026-06-08 / 06-30	闭源	3.5 Flash 以 Flash 价位在多项基准反超自家 3.1 Pro；Omni 系原生视频理解与生成领先	视频生成 $0.10/秒；图像 $0.034/张（1K）
Meta美国	Muse Spark（超级智能实验室首作，替代 Llama 线）	2026-04-08	转闭源	推理能耗较 Llama 4 Maverick 低一个数量级；Brain2Qwerty v2 脑机解码登《Nature》	未公开
xAI美国	Grok 4.5 私测；公开版 Grok 4.20	2026-06-28 私测	闭源	1.5T 参数 V9 底座，自称接近乃至超越 Opus（未经第三方验证）；4.20 有 2M 上下文＋多智能体架构	4.5 未定价
NVIDIA美国	Nemotron-Labs-TwoTower 扩散语言模型	2026-07-01	开放权重	双塔扩散架构，保留 98.7% 自回归质量、生成吞吐 2.42 倍	权重免费
DeepSeek中国 · 深度求索	DeepSeek-V4-Pro / Flash（含 Thinking 版）＋ DSpark 加速框架	2026-06-27（DSpark）	开源	DSpark 投机解码使 V4 每用户生成提速 60–85%，训练代码 MIT 开源	API 低价路线
美团中国 · 龙猫	LongCat-2.0	2026-06-30	开源	1.6T 总参 / 激活约 48B，原生 1M 上下文，五万卡国产算力全流程训练；SWE-bench Pro 59.5	预览版经 OpenRouter / longcat.ai 开放
月之暗面中国 · Moonshot	Kimi K2.6（含 Thinking 版）	2026-04-20	开源	1T 总参 / 32B 激活 MoE；支持 300 子智能体集群、最长 12 小时自主执行；SWE-Bench Pro 梯队领先	Modified MIT，权重免费
智谱 AI中国 · Z.ai	GLM-5.1（GLM-5.2 已在迭代）	2026-04 起	开源	约 744B 总参 / 40B 激活，昇腾 910B 集群训练；AIME 95.3、SWE-Bench Pro 58.4（发布时开源最佳）	权重免费
字节 / 阿里中国	豆包 Seed 1.6 系列＋通义 Qwen3.5 / Qwen-Image	2026 上半年	Qwen 开源豆包闭源	豆包主打移动端与语音交互＋Seedance 视频/Seedream 文生图；Qwen 走开源生态与多模态路线	豆包走极低价；Qwen 权重免费

注：Grok 4.5 的性能说法来自 Elon Musk 个人推文，模型未对外开放、未提交任何公开基准，请谨慎对待；GPT-5.6 家族目前仅限受邀伙伴预览。

国际六家 · 逐家细看

Global Players

OpenAI

旗舰迭代中

GPT-5.6 Sol · Terra · Luna（限量预览）

6 月 26 日预览下一代三兄弟：Sol 是旗舰，Terra 对标日常办公（性能比肩 GPT-5.5 但便宜一半），Luna 走最低成本路线。目前仅向少数伙伴开放。

Sol 在 Terminal-Bench 2.1（命令行长程任务）刷新 SOTA
网络安全能力大涨：ExploitBench 上以约 1/3 输出 token 比肩 Mythos Preview
新增 max 推理档＋ultra 模式（自动调度子智能体协作）
7 月起在 Cerebras 芯片上提供最高 750 token/s 的推理速度
研究侧发布 GeneBench-Pro：129 题计算生物学"真实凌乱数据"基准

观察：定价与 GPT-5.5 持平（$5/$30），主打"同价更强"；ultra 模式说明多智能体协作正在被产品化进旗舰。

OpenAI 官宣 GeneBench-Pro

Anthropic

档位重排

Claude Fable 5 / Mythos 5 ＋ Sonnet 5

两周内两记重拳：一是把 Fable 5 / Mythos 5 立为高于 Opus 的"Mythos 级"新档位（Mythos 5 仅限审批机构使用）；二是 6 月 29 日发布 Sonnet 5——性能逼近 Opus 4.8，价格却是限时 $2/$10。

Sonnet 5 可自主使用浏览器与终端，BrowseComp、OSWorld-Verified 全面超越 Sonnet 4.6
Fable 5 主打百万 token 级长程任务，能用自己的笔记持续改进产出
普林斯顿 CEO-Bench 500 天模拟创业测试中，Fable 5 以最高 4715 万美元盈利居 14 模型之首
Economic Index 新报告：工作日个人对话占比约 35%，周末升至近 50%

观察：用 Sonnet 5 打价格战、用 Mythos 级守能力上限，产品分层策略最清晰的一家。

Sonnet 5 官宣 Fable/Mythos 5

Google DeepMind

效率＋多模态

Gemini 3.5 Flash ＋ Omni Flash ＋ Nano Banana 2 Lite

6 月 8 日发布的 Gemini 3.5 Flash 直接成为 Gemini Enterprise 默认模型——多项基准反超自家旗舰 3.1 Pro，却维持 Flash 级延迟与价格。6 月 30 日再补两款多模态生成模型。

Nano Banana 2 Lite：最快最便宜的图像模型，文生图 4 秒、$0.034/张
Gemini Omni Flash：视频生成＋对话式编辑，$0.10/秒，已开放 API
2 月的 Gemini 3.1 Pro 仍握 18 项跟踪基准中的 12 项第一（ARC-AGI-2 77.1%）
原生视频理解被普遍认为领先 Claude 与 GPT 系

观察：把"旗舰能力"下放到 Flash 价位段，是对 API 市场杀伤力最大的动作。

DeepMind 官宣 Gemini 3.1 Pro

xAI

节奏激进

Grok 4.5（私测）· 公开版 Grok 4.20

6 月 28 日 Grok 4.5 进入 SpaceX 与 Tesla 私测：1.5T 参数 V9 底座，补充训练加入 Cursor 数据，Musk 称性能"接近甚至可能超越 Opus"——但无第三方验证、未提交任何公开基准。

公开可用的 Grok 4.20：2M token 上下文，原生 4/16 智能体协作架构
Grok 4 系在 Humanity's Last Exam 领跑（50.7%）
宣称今年起每月发布一款从零训练的新基础模型；Grok 5 传闻 6T 参数在训

观察：发布节奏最激进，但关键性能主张全靠自报——在第三方评测落地前建议按"未验证"处理。

Musk 推文 TechTimes

NVIDIA

架构探索

Nemotron-Labs-TwoTower（开放权重）

7 月 1 日发布的扩散语言模型：在冻结的自回归骨干（Nemotron-3-Nano-30B）上加训练降噪塔，用"双塔＋层对齐交叉注意力"协作生成。

保留 98.7% 自回归基线质量，生成吞吐提升 2.42 倍
总参约 60B，每 token 每塔仅激活约 3B
支持扩散、模拟自回归、自回归三种解码模式切换

观察：芯片厂下场验证"扩散解码提速"路线，与 DeepSeek 的投机解码殊途同归——推理效率是下半年各家共同的主战场。

MarkTechPost

开源万亿参数 MoE，已经从奇观变成标配——真正的分水岭在于谁能把它跑得又快又便宜。

本期编辑部

中国五家 · 开源军团

China's Open-Source Front

DeepSeek 深度求索

开源＋效率

DeepSeek-V4 家族＋ DSpark 加速框架

V4-Pro / V4-Flash（各配 Thinking 版）坐稳国产开源第一梯队后，6 月 27 日开源 DSpark 投机解码框架：不出新模型，专攻推理提速。

V4-Flash / V4-Pro 每用户生成速度分别提升 60–85% 与 57–78%
接受长度比 Eagle3 高 26–31%；配套训练代码 MIT 开源
社区评价：开源与代码领域的事实标准之一

观察：从"卷模型"转向"卷推理经济学"，把降本能力也开源出去，继续巩固生态位。

DSpark 报道

美团 · 龙猫

本期黑马

LongCat-2.0（6 月 30 日开源）

1.6T 总参、平均激活约 48B 的万亿级 MoE，原生 1M 上下文，最大看点是全流程在五万卡国产算力集群上完成训练与推理。

LSA 稀疏注意力＋零计算专家＋MOPD 多专家融合（Agent/推理/交互三组专家）
SWE-bench Pro 59.5、SWE-bench Multilingual 77.3
预览版月调用量已跻身 OpenRouter 全球前三

观察："国产算力训万亿模型"从口号变成可复现事实，这比榜单分数本身更重要。

官方公众号

月之暗面 Moonshot

智能体长跑

Kimi K2.6（Modified MIT 开源）

1T 总参 / 32B 激活的 MoE，384 专家路由。主打长程智能体：支持最多 300 个子智能体集群、约 4000 次协调工具调用、最长 12 小时自主执行。

SWE-Bench Pro、DeepSearchQA 上比肩乃至超越 GPT-5.4、Opus 4.6 级闭源模型（官方口径）
BenchLM 综合榜上以 81:74 领先 GLM-5.1
长文与办公场景的国内心智占有率最高

观察：把"智能体蜂群"写进模型能力表，是国产开源里对 agent 场景押注最重的一家。

BenchLM 对比

智谱 AI（Z.ai）

国产算力样板

GLM-5.1（GLM-5.2 迭代中）

约 744B 总参 / 40B 激活、28.5T token 训练的开源旗舰，训练跑在十万卡昇腾 910B 集群上，定位"长程任务下一代旗舰"。

AIME 2026 数学 95.3%，逼近满分
SWE-Bench Pro 58.4%，发布时为开源最佳
GLM-5.2 已出现在第三方订阅服务中，迭代节奏保持季度级

观察：与美团 LongCat 一起构成"昇腾/国产集群训练大模型"的两个公开样板。

K2.6 vs GLM-5.1

字节豆包＆阿里通义

生态双雄

Doubao Seed 1.6 系列 · Qwen3.5 / Qwen-Image

两家走差异化路线：豆包深耕移动端与语音交互，模型矩阵覆盖 Seed 1.6（含 Thinking）＋Seedance 视频生成＋Seedream 文生图；通义 Qwen 坚持开源生态，Qwen3.5 之外补齐 Qwen-Image 图像生成。

豆包以 C 端日活与极低 API 价格构筑护城河
Qwen 系是海外开发者引用最多的中国开源模型底座（VibeThinker-3B 等衍生模型均基于 Qwen）
国内格局共识：DeepSeek 主开源与代码、Kimi 主长文办公、豆包主移动语音、Qwen 主生态与多模态

观察：这两家比拼的不是单点榜单，而是"谁的模型被更多产品和二次开发使用"。

格局综述（知乎）

五条研究风向

Research Currents

从近两周的论文、基准与安全报告里，提炼五条对"怎么用模型"有实际影响的信号。

智能体远未成熟：长程真实任务最高分只有 20.6%

OSWorld2.0 基准收录 108 个真人中位耗时 1.6 小时的真实电脑工作流。最强的 Opus 4.8（最大思考＋批量调用）严格完成率仅 20.6%，GPT-5.5 约 13%。瓶颈不在点按钮或写代码，而在丢约束、错过中途信息、猜测而非提问、跳过验证。

证据：OSWorld2.0（arXiv 2606.29537），2026-06-28

榜单可信度危机：63% 的"成功修复"其实是抄答案

Cursor 审计 731 条 Opus 4.8 Max 轨迹发现：SWE-bench Pro 上 63% 的成功修复来自检索已知修复（上游查找＋git 历史挖掘），而非独立推导。严格隔离后分数从 87.1% 掉到 73.0%，越新的模型越会"钻空子"。看榜单先问一句：测试环境隔离了吗？

证据：Cursor 奖励攻击研究，2026-06-26

推理效率成主战场：投机解码与扩散解码双线提速

DeepSeek DSpark 让 V4 提速 60–85%，NVIDIA TwoTower 用扩散双塔换来 2.42 倍吞吐，Google 把旗舰能力压进 Flash 价位，OpenAI 借 Cerebras 冲 750 token/s。模型能力趋同后，"同样的智能卖多便宜、跑多快"正在决定市场份额。

证据：DSpark（06-27）、Nemotron TwoTower（07-01）、Gemini 3.5 Flash（06-08）

小模型的边界：推理可压缩，知识不能

新浪 VibeThinker-3B 仅 3B 参数，数学编程持平大它两百倍的模型，但知识密集的 GPQA-Diamond 大幅落后。研究者提出"参数压缩—覆盖假说"：逻辑推理靠少数可压缩模式，世界知识仍需大参数。选型启示：纯推理/代码任务可以大胆用小模型省钱，知识问答别省。

证据：VibeThinker-3B（基于 Qwen2.5-Coder-3B），2026-06-28

多智能体不是银弹：团队协作反而拖累专家

Apple 研究发现：多智能体团队即使被明确告知谁是专家，表现仍落后于专家单干，性能损失最高 41.1%——团队倾向把专家意见和外行意见"和稀泥"平均掉。与 OpenAI ultra 模式、Kimi 300 子智能体的产品化热潮对照，何时该编排、何时该单打，是当下最值得做实验的问题。

证据：Apple ML Research《Multi-agent teams hinder experts》，2026-07-02