← 返回主页

评测摘录 · OpenClaw

国产大模型核心能力评测:智谱、DeepSeek、MiniMax、Kimi、千问 Qwen、小米 MiMo

更新日期:

基于独立评测机构 Artificial Analysis 发布的最新 AI 模型基准测试结果,本文围绕 Agentic 智能指数Coding Agent 指数 两大核心维度展开横向对比。这两项指标与日常代码开发需求和 OpenClaw、Harness 等通用 Agent 场景高度契合:

从测试数据来看,国产头部大模型已全面跻身全球第一梯队,与 OpenAI、Anthropic 等海外厂商的顶尖产品差距显著缩小,且在性价比、国内生态适配性方面具备独特优势。

一、整体格局:国产第一梯队全面对标海外顶尖水平

1. Agentic 智能指数(通用 Agent 核心指标)

Artificial Analysis Agentic Index:GDPval-AA 与 τ²-Bench Telecom 等综合表现(分数越高越好)。
Artificial Analysis Agentic Index:GDPval-AA 与 τ²-Bench Telecom 等综合表现(分数越高越好)。Artificial Analysis Agentic 指数

该指数综合 GDPval-AA 真实世界任务执行能力与 τ²-Bench Telecom 工具调用能力两大基准,量化评估模型自主完成多步骤复杂任务的表现,是衡量 OpenClaw 自动化运营潜力的核心标准。

2. Coding Agent 指数(代码核心指标)

Artificial Analysis Coding Agent Index:SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA 等综合 pass@1(分数越高越好)。
Artificial Analysis Coding Agent Index:SWE-Bench-Pro-Hard-AA、Terminal-Bench v2、SWE-Atlas-QnA 等综合 pass@1(分数越高越好)。Artificial Analysis Coding Agent 指数

该指数整合 SWE-Bench-Pro-Hard-AA 代码生成修复、Terminal-Bench v2 终端工具使用、SWE-Atlas-QnA 代码库理解三大测试维度,全面评估模型端到端完成软件工程任务的能力。

二、国产核心厂商模型深度解析

1. GLM-5.1(智谱AI):编码能力领跑国产,综合实力均衡

作为国产编码能力的标杆,GLM-5.1 在 Claude Code 框架下的代码生成、漏洞修复及大型代码库解读能力均领先其他国产模型,是技术开发场景的首选方案。其 Agentic 智能指数同样达到国产顶尖水平,能够同时支撑 OpenClaw 复杂流程的自主调度与底层工具的开发搭建。定价处于行业中等偏上水平,但如果能够购买 CodingPlan 个人使用,则依然划算,综合适配运营与开发双重核心需求。

缺点是算力瓶颈比较严重,CodingPlan 需要抢购,很难买到。

2. MiniMax-M2.7(稀宇科技):低幻觉高可靠,响应效率优异

MiniMax-M2.7 的核心优势模型参数量比其他模型小,使得 CodingPlan 套餐最实惠、额度限制最小、倍率最高的。极速版套餐模型输出 Token 速率高,很少出现 429,可用性高于其他平台套餐。日常交互体验出色,适合作为 OpenClaw 等 Agent 场景中完成日常任务,作为辅助工具承担日常信息汇总、流程记录、常规咨询答疑等标准化任务。

3. DeepSeek(深度求索):全梯度产品线覆盖,兼顾性能与成本

DeepSeek 构建了完整的产品矩阵,能够满足不同层级的需求。旗舰款 V4 Pro (Max) 综合能力均衡,Agentic 与编码能力均处于国产第一梯队,可胜任代码开发工作及 OpenClaw 核心复杂任务与调度;轻量款 V4 Flash (Max) 输出速度高达 75 tokens/s,成本极低,适合高并发、低延迟的常规任务调度。

同时由于 DeepSeek 独特的缓存技术,使得缓存命中率高,缓存价格低,按用量计费首选。

4. Kimi K2.6(月之暗面):长上下文能力突出,编码功底扎实

Kimi K2.6 能力均衡,支持图像输入,模型代码能力优,较高强度的日常开发够用。购买 CodingPlan 送专属龙虾。Allegretto ¥199/月性价比高最高,适合作为代码开发场景主力使用。

5. Qwen(通义千问,阿里):企业级生态完善,定制化能力强

Qwen3.6 Max Preview 的 Agentic 表现优秀,指令遵循能力与多场景适配性突出。性价比款 Qwen3.6 Plus 则进一步降低了使用门槛,适合大规模日常应用。但目前只剩下 Token Plan 套餐,性价比较低,个人使用不推荐。

6. MiMo-V2.5-Pro(小米):Agentic 能力国产顶尖,性价比优势显著

MiMo-V2.5-Pro 的 Agentic 智能指数与 DeepSeek V4 Pro、GLM-5.1 并列国产第一,在多工具协同调度、复杂自主流程执行方面表现接近 GPT-5.4,是驱动 OpenClaw 全流程自动化的最优选择之一。

三、个人使用选型参考指南

结合代码开发需求及 OpenClaw 场景,可根据具体场景针对性选择:

图表站点:Artificial Analysis。与上文截图完全一致的原始筛选链接:Agentic Index · Coding Agents