Claude Opus 4.6 深度解析
2026 年 2 月 5 日,Anthropic 发布了 Claude Opus 4.6,这是 Opus 系列首次支持 100 万 token 上下文窗口的旗舰模型。
核心升级
1M Token 上下文窗口
Opus 4.6 是首个支持 100 万 token 上下文的 Opus 级模型(Beta),这意味着:
- 约 75 万字(3-4 本完整小说)
- 约 1,500 页标准文档
- 约 50,000 行代码及文档
- 10-15 篇研究论文同时分析
在 MRCR v2(8-needle 1M 变体)测试中,Opus 4.6 达到 76%,而 Sonnet 4.5 仅 18.5%。长对话中的「上下文衰减」问题也显著改善。
编码能力飞跃
Opus 4.6 在编码方面有质的提升:
- Terminal-Bench 2.0 最高分(代理编码基准)
- 更好的代码规划和长时间代理任务维持
- 增强的代码审查和调试能力,能更好地发现自身错误
- 根因分析和多语言编码能力提升
- 网络安全领域表现优于竞品(发现真实漏洞)
自适应思考
全新的自适应思考机制,模型自行决定何时使用扩展思考:
- low:快速响应,适合简单任务
- medium:平衡模式
- high:深度推理
- max:最大智能,适合复杂问题
上下文压缩
自动总结旧上下文以延长任务持续时间,让长时间代理工作更加稳定。
基准测试表现
| 基准 | Opus 4.6 | 对比 |
|---|---|---|
| Terminal-Bench 2.0 | 最高分 | 代理编码基准第一 |
| Humanity's Last Exam | 领先 | 多学科推理第一 |
| GDPval-AA | +144 Elo | 超越 GPT-5.2 |
| BrowseComp | 最佳 | 信息检索第一 |
| MRCR v2 (1M) | 76% | Sonnet 4.5 仅 18.5% |
| 生命科学 | ~2× | 比 Opus 4.5 提升约一倍 |
| Vending-Bench 2 | +$3,050 | 长期任务收益更高 |
代理团队(研究预览)
Opus 4.6 最令人兴奋的新功能是 Agent Teams——多个 AI 代理协作完成复杂任务。
启用方式
bash
# 设置环境变量启用
export CLAUDE_CODE_EXPERIMENTAL_AGENT_TEAMS=1
# 启动 Claude Code
claude工作原理
代理团队允许多个 Claude 实例并行工作:
- 一个「协调者」分解任务并分配子任务
- 多个「执行者」同时处理不同子任务
- 通过共享上下文和消息传递协作
- 适合大型代码重构、多文件修改等场景
使用场景
- 大型代码重构:一个代理重构前端,另一个重构后端
- 代码审查 + 修复:一个代理审查代码,另一个立即修复问题
- 测试 + 开发:一个代理写代码,另一个同步写测试
Claude Code 中的新功能
快速模式
bash
# 在 Claude Code 中切换快速模式
/fast快速模式使用 Opus 4.6 但输出速度提升 2.5 倍,适合日常编码任务。
自动记忆
Claude 在工作时自动记录和回忆有用的上下文,跨会话保持记忆。
bash
# 管理自动记忆
/memory输出 Token 提升
Opus 4.6 默认最大输出提升至 64K tokens(v2.1.77),128K 通过 API 可用。
定价
| 项目 | 价格 |
|---|---|
| 输入 token | $5 / 百万 token |
| 输出 token | $25 / 百万 token |
| 长提示 (>200K) 输入 | $10 / 百万 token |
| 长提示 (>200K) 输出 | $37.50 / 百万 token |
提示
定价与 Opus 4.5 保持一致,但能力大幅提升,性价比显著提高。
模型 ID
claude-opus-4-6可在 claude.ai、API、Amazon Bedrock、Google Vertex AI 上使用。
安全特性
- 所有近期 Claude 模型中最低的过度拒绝率
- 全面的安全测试,包括新增的网络安全探针
- 低错位行为率
- 支持仅美国推理选项
参考来源:Anthropic 官方发布