THE FRONTIER MODEL OBSERVER第 一 期2026 年 7 月 3 日

前沿模型观察

十一家国际与中国主流厂商 · 最新 AI 模型发布与研究成果对比特稿

仲 夏 号 · 特 别 报 道
卷首语
EDITORIAL

刚刚过去的两周,可能是 2026 年上半年模型发布最密集的窗口。Anthropic 在发布逼近 Opus 性能却砍掉三分之一价格的 Claude Sonnet 5 之外,把 Fable 5 / Mythos 5 推上了高于 Opus 的全新"Mythos 级"档位;OpenAI 随即预览下一代 GPT-5.6 家族(Sol / Terra / Luna)应战;Google 则用 Gemini 3.5 Flash 把"旗舰级能力"打进了 Flash 价位段。

太平洋另一侧同样热闹:美团 LongCat-2.0 以 1.6 万亿参数、全流程国产算力训练的姿态开源上桌,DeepSeek V4 家族配合 DSpark 投机解码把推理速度再提六到八成,Kimi K2.6、GLM-5.1 在 SWE-Bench Pro 等智能体编程榜上与闭源旗舰正面掰手腕。开源万亿参数 MoE,已从奇观变成标配。

本期特稿逐家盘点十一家厂商的最新动作,并从近两周的论文与评测中提炼五条值得留意的研究风向。

— 信息截至 2026 年 7 月 3 日;所有关键事实均附来源链接,厂商自报且未经第三方验证的数据已单独标注。

01

一表总览

The Big Table

十一家厂商当前对外可见的最新旗舰/最新动作,按国际与中国分区排列。"开源"指权重公开可下载。

厂商最新旗舰 / 动作发布时间形态关键亮点定价(每百万 token)
OpenAI美国 GPT-5.6 Sol / Terra / Luna 预览
在售旗舰 GPT-5.5
2026-06-26 预览 闭源 Terminal-Bench 2.1 新 SOTA;新增 max 推理档与调度子智能体的 ultra 模式;Cerebras 上最高 750 token/s Sol:$5 / $30(与 GPT-5.5 持平)
Anthropic美国 Claude Fable 5 / Mythos 5(Mythos 级新档位)+ Sonnet 5 2026-06-29(Sonnet 5) 闭源 Sonnet 5 性能逼近 Opus 4.8,长程智能体任务大幅增强;Fable 5 主打百万 token 级长程专注 Sonnet 5 限时 $2 / $10(8 月末恢复 $3 / $15)
Google DeepMind美国 Gemini 3.5 Flash + Gemini Omni Flash + Nano Banana 2 Lite 2026-06-08 / 06-30 闭源 3.5 Flash 以 Flash 价位在多项基准反超自家 3.1 Pro;Omni 系原生视频理解与生成领先 视频生成 $0.10/秒;图像 $0.034/张(1K)
Meta美国 Muse Spark(超级智能实验室首作,替代 Llama 线) 2026-04-08 转闭源 推理能耗较 Llama 4 Maverick 低一个数量级;Brain2Qwerty v2 脑机解码登《Nature》 未公开
xAI美国 Grok 4.5 私测;公开版 Grok 4.20 2026-06-28 私测 闭源 1.5T 参数 V9 底座,自称接近乃至超越 Opus(未经第三方验证);4.20 有 2M 上下文+多智能体架构 4.5 未定价
NVIDIA美国 Nemotron-Labs-TwoTower 扩散语言模型 2026-07-01 开放权重 双塔扩散架构,保留 98.7% 自回归质量、生成吞吐 2.42 倍 权重免费
DeepSeek中国 · 深度求索 DeepSeek-V4-Pro / Flash(含 Thinking 版)+ DSpark 加速框架 2026-06-27(DSpark) 开源 DSpark 投机解码使 V4 每用户生成提速 60–85%,训练代码 MIT 开源 API 低价路线
美团中国 · 龙猫 LongCat-2.0 2026-06-30 开源 1.6T 总参 / 激活约 48B,原生 1M 上下文,五万卡国产算力全流程训练;SWE-bench Pro 59.5 预览版经 OpenRouter / longcat.ai 开放
月之暗面中国 · Moonshot Kimi K2.6(含 Thinking 版) 2026-04-20 开源 1T 总参 / 32B 激活 MoE;支持 300 子智能体集群、最长 12 小时自主执行;SWE-Bench Pro 梯队领先 Modified MIT,权重免费
智谱 AI中国 · Z.ai GLM-5.1(GLM-5.2 已在迭代) 2026-04 起 开源 约 744B 总参 / 40B 激活,昇腾 910B 集群训练;AIME 95.3、SWE-Bench Pro 58.4(发布时开源最佳) 权重免费
字节 / 阿里中国 豆包 Seed 1.6 系列 + 通义 Qwen3.5 / Qwen-Image 2026 上半年 Qwen 开源 豆包闭源 豆包主打移动端与语音交互+Seedance 视频/Seedream 文生图;Qwen 走开源生态与多模态路线 豆包走极低价;Qwen 权重免费

注:Grok 4.5 的性能说法来自 Elon Musk 个人推文,模型未对外开放、未提交任何公开基准,请谨慎对待;GPT-5.6 家族目前仅限受邀伙伴预览。

02

国际六家 · 逐家细看

Global Players

OpenAI

旗舰迭代中
GPT-5.6 Sol · Terra · Luna(限量预览)

6 月 26 日预览下一代三兄弟:Sol 是旗舰,Terra 对标日常办公(性能比肩 GPT-5.5 但便宜一半),Luna 走最低成本路线。目前仅向少数伙伴开放。

  • Sol 在 Terminal-Bench 2.1(命令行长程任务)刷新 SOTA
  • 网络安全能力大涨:ExploitBench 上以约 1/3 输出 token 比肩 Mythos Preview
  • 新增 max 推理档+ultra 模式(自动调度子智能体协作)
  • 7 月起在 Cerebras 芯片上提供最高 750 token/s 的推理速度
  • 研究侧发布 GeneBench-Pro:129 题计算生物学"真实凌乱数据"基准
观察:定价与 GPT-5.5 持平($5/$30),主打"同价更强";ultra 模式说明多智能体协作正在被产品化进旗舰。

Anthropic

档位重排
Claude Fable 5 / Mythos 5 + Sonnet 5

两周内两记重拳:一是把 Fable 5 / Mythos 5 立为高于 Opus 的"Mythos 级"新档位(Mythos 5 仅限审批机构使用);二是 6 月 29 日发布 Sonnet 5——性能逼近 Opus 4.8,价格却是限时 $2/$10。

  • Sonnet 5 可自主使用浏览器与终端,BrowseComp、OSWorld-Verified 全面超越 Sonnet 4.6
  • Fable 5 主打百万 token 级长程任务,能用自己的笔记持续改进产出
  • 普林斯顿 CEO-Bench 500 天模拟创业测试中,Fable 5 以最高 4715 万美元盈利居 14 模型之首
  • Economic Index 新报告:工作日个人对话占比约 35%,周末升至近 50%
观察:用 Sonnet 5 打价格战、用 Mythos 级守能力上限,产品分层策略最清晰的一家。

Google DeepMind

效率+多模态
Gemini 3.5 Flash + Omni Flash + Nano Banana 2 Lite

6 月 8 日发布的 Gemini 3.5 Flash 直接成为 Gemini Enterprise 默认模型——多项基准反超自家旗舰 3.1 Pro,却维持 Flash 级延迟与价格。6 月 30 日再补两款多模态生成模型。

  • Nano Banana 2 Lite:最快最便宜的图像模型,文生图 4 秒、$0.034/张
  • Gemini Omni Flash:视频生成+对话式编辑,$0.10/秒,已开放 API
  • 2 月的 Gemini 3.1 Pro 仍握 18 项跟踪基准中的 12 项第一(ARC-AGI-2 77.1%)
  • 原生视频理解被普遍认为领先 Claude 与 GPT 系
观察:把"旗舰能力"下放到 Flash 价位段,是对 API 市场杀伤力最大的动作。

Meta

路线重启
Muse Spark(超级智能实验室首作)

4 月发布的 Muse Spark 是 Alexandr Wang 领衔的超级智能实验室首个大模型,正式替代 Llama 线——并且转为闭源(称"希望未来版本开源")。定位是"个人超级智能":能看见并理解你周围的世界。

  • 推理能力所需算力较 Llama 4 Maverick 低一个数量级
  • 多模态感知、健康、智能体任务上具备竞争力
  • 研究侧 6 月 29 日发布 Brain2Qwerty v2:非侵入式脑信号实时解码整句,v1 已登《Nature》
观察:从"开源旗手"转向闭源自研,是今年格局变动最大的信号之一;开源阵营的旗帜实际上已交到中国厂商手里。

xAI

节奏激进
Grok 4.5(私测)· 公开版 Grok 4.20

6 月 28 日 Grok 4.5 进入 SpaceX 与 Tesla 私测:1.5T 参数 V9 底座,补充训练加入 Cursor 数据,Musk 称性能"接近甚至可能超越 Opus"——但无第三方验证、未提交任何公开基准。

  • 公开可用的 Grok 4.20:2M token 上下文,原生 4/16 智能体协作架构
  • Grok 4 系在 Humanity's Last Exam 领跑(50.7%)
  • 宣称今年起每月发布一款从零训练的新基础模型;Grok 5 传闻 6T 参数在训
观察:发布节奏最激进,但关键性能主张全靠自报——在第三方评测落地前建议按"未验证"处理。

NVIDIA

架构探索
Nemotron-Labs-TwoTower(开放权重)

7 月 1 日发布的扩散语言模型:在冻结的自回归骨干(Nemotron-3-Nano-30B)上加训练降噪塔,用"双塔+层对齐交叉注意力"协作生成。

  • 保留 98.7% 自回归基线质量,生成吞吐提升 2.42 倍
  • 总参约 60B,每 token 每塔仅激活约 3B
  • 支持扩散、模拟自回归、自回归三种解码模式切换
观察:芯片厂下场验证"扩散解码提速"路线,与 DeepSeek 的投机解码殊途同归——推理效率是下半年各家共同的主战场。

开源万亿参数 MoE,已经从奇观变成标配——真正的分水岭在于谁能把它跑得又快又便宜。

本期编辑部
03

中国五家 · 开源军团

China's Open-Source Front

DeepSeek 深度求索

开源+效率
DeepSeek-V4 家族 + DSpark 加速框架

V4-Pro / V4-Flash(各配 Thinking 版)坐稳国产开源第一梯队后,6 月 27 日开源 DSpark 投机解码框架:不出新模型,专攻推理提速。

  • V4-Flash / V4-Pro 每用户生成速度分别提升 60–85% 与 57–78%
  • 接受长度比 Eagle3 高 26–31%;配套训练代码 MIT 开源
  • 社区评价:开源与代码领域的事实标准之一
观察:从"卷模型"转向"卷推理经济学",把降本能力也开源出去,继续巩固生态位。

美团 · 龙猫

本期黑马
LongCat-2.0(6 月 30 日开源)

1.6T 总参、平均激活约 48B 的万亿级 MoE,原生 1M 上下文,最大看点是全流程在五万卡国产算力集群上完成训练与推理。

  • LSA 稀疏注意力+零计算专家+MOPD 多专家融合(Agent/推理/交互三组专家)
  • SWE-bench Pro 59.5、SWE-bench Multilingual 77.3
  • 预览版月调用量已跻身 OpenRouter 全球前三
观察:"国产算力训万亿模型"从口号变成可复现事实,这比榜单分数本身更重要。

月之暗面 Moonshot

智能体长跑
Kimi K2.6(Modified MIT 开源)

1T 总参 / 32B 激活的 MoE,384 专家路由。主打长程智能体:支持最多 300 个子智能体集群、约 4000 次协调工具调用、最长 12 小时自主执行。

  • SWE-Bench Pro、DeepSearchQA 上比肩乃至超越 GPT-5.4、Opus 4.6 级闭源模型(官方口径)
  • BenchLM 综合榜上以 81:74 领先 GLM-5.1
  • 长文与办公场景的国内心智占有率最高
观察:把"智能体蜂群"写进模型能力表,是国产开源里对 agent 场景押注最重的一家。

智谱 AI(Z.ai)

国产算力样板
GLM-5.1(GLM-5.2 迭代中)

约 744B 总参 / 40B 激活、28.5T token 训练的开源旗舰,训练跑在十万卡昇腾 910B 集群上,定位"长程任务下一代旗舰"。

  • AIME 2026 数学 95.3%,逼近满分
  • SWE-Bench Pro 58.4%,发布时为开源最佳
  • GLM-5.2 已出现在第三方订阅服务中,迭代节奏保持季度级
观察:与美团 LongCat 一起构成"昇腾/国产集群训练大模型"的两个公开样板。

字节豆包 & 阿里通义

生态双雄
Doubao Seed 1.6 系列 · Qwen3.5 / Qwen-Image

两家走差异化路线:豆包深耕移动端与语音交互,模型矩阵覆盖 Seed 1.6(含 Thinking)+Seedance 视频生成+Seedream 文生图;通义 Qwen 坚持开源生态,Qwen3.5 之外补齐 Qwen-Image 图像生成。

  • 豆包以 C 端日活与极低 API 价格构筑护城河
  • Qwen 系是海外开发者引用最多的中国开源模型底座(VibeThinker-3B 等衍生模型均基于 Qwen)
  • 国内格局共识:DeepSeek 主开源与代码、Kimi 主长文办公、豆包主移动语音、Qwen 主生态与多模态
观察:这两家比拼的不是单点榜单,而是"谁的模型被更多产品和二次开发使用"。
04

五条研究风向

Research Currents

从近两周的论文、基准与安全报告里,提炼五条对"怎么用模型"有实际影响的信号。