Claude Opus 4.5 完整介绍

本文翻译自 Anthropic News: Claude Opus 4.5

2025年11月24日，Anthropic 发布了 Claude Opus 4.5——一款"智能高效的模型，是编码、代理和计算机使用领域的全球最佳"。

核心亮点

定位

Claude Opus 4.5 是 Anthropic 迄今为止最强大的模型：

🥇 全球最佳编码模型
🤖 最强代理能力
💻 最佳计算机使用
🧠 卓越的日常任务处理

性能成就

软件工程基准测试

基准测试	成绩	说明
SWE-bench Verified	领先	超越所有竞争对手
SWE-bench Multilingual	7/8 语言领先	多语言编程能力
Aider Polyglot	+10.6%	比 Sonnet 4.5 提升
Vending-Bench	+29%	比 Sonnet 4.5 提升
BrowseComp-Plus	显著提升	长期任务表现

创意问题解决能力

在 τ2-bench 测试中，Opus 4.5 展现了令人印象深刻的创意：

面对航空公司政策限制，它提出了"先升舱等级，再修改航班"的合法解决方案，超越了基准测试预期的应对方式。

关键特性

1. 深度思考模式

Opus 4.5 默认启用深度思考，在回答前进行更深入的推理。

适用场景：

复杂架构设计
疑难 bug 调试
算法优化
多步骤推理

2. 令牌效率革命

配合新的"努力参数"功能：

努力级别	性能	令牌节省
中等	匹配 Sonnet 4.5	76%
最高	超越 Sonnet 4.5 4.3%	48%

3. 增强的安全性

✅ 迄今为止"最稳健对齐的模型"
✅ 对提示注入攻击的防御能力超越业界其他前沿模型

定价与使用

API 定价

类型	价格 (每百万 token)
输入	$5
输出	$25

接入方式

bash

# API 模型 ID
claude-opus-4-5-20251101

# Claude Code 切换
/model opus

平台支持：

Claude 应用程序 (claude.ai)
Anthropic API
Amazon Bedrock
Google Cloud Vertex AI

与其他模型对比

特性	Opus 4.5	Sonnet 4.5	Haiku 4.5
编码能力	最强	很强	强
推理深度	最深	深	标准
响应速度	较慢	中等	最快
成本	最高	中等	最低
适用场景	复杂任务	日常开发	快速查询

产品集成更新

Claude Code 增强

改进的规划模式
桌面应用支持
更好的检查点集成

Claude 应用

长对话自动总结，无需中断
改进的上下文管理

浏览器扩展

Claude for Chrome：所有 Max 用户可用
Claude for Excel：扩展至 Max/Team/Enterprise 用户

开发平台新工具

上下文管理

新的上下文管理和压缩功能，让长时任务更高效。

高级工具使用

改进的工具调用能力，支持：

并行工具执行
更精确的参数推断
更好的错误处理

多代理系统协调

原生支持多代理编排，可以：

自动识别需要委派的任务
协调子代理工作
综合多来源结果

深度研究评估中，这些技术组合将性能提升了近 15 个百分点。

使用建议

何时选择 Opus 4.5

✅ 推荐使用：

复杂的多步骤任务
需要深度推理的问题
大规模代码重构
架构设计决策
研究型任务

❌ 可能不需要：

简单的代码补全
快速问答
对延迟敏感的场景

最佳实践

利用思考模式

text

请深入思考这个问题，考虑所有可能的方案和权衡。

设置合适的努力级别
- 简单任务：使用中等努力节省成本
- 复杂任务：使用最高努力确保质量
配合检查点使用
- 大胆尝试复杂重构
- 随时可以回滚

Claude Opus 4.5 完整介绍 ​

核心亮点 ​

定位 ​

性能成就 ​

软件工程基准测试 ​

创意问题解决能力 ​

关键特性 ​

1. 深度思考模式 ​

2. 令牌效率革命 ​

3. 增强的安全性 ​

定价与使用 ​

API 定价 ​

接入方式 ​

与其他模型对比 ​

产品集成更新 ​

Claude Code 增强 ​

Claude 应用 ​

浏览器扩展 ​

开发平台新工具 ​

上下文管理 ​

高级工具使用 ​

多代理系统协调 ​

使用建议 ​

何时选择 Opus 4.5 ​

最佳实践 ​

相关资源 ​