在OpenAI 和 Google 接连发布大模型后,Anthropic终于也亮出了底牌。
5月22日,Anthropic在其首届开发者大会上发布了全新一代的Claude 4系列模型,包括旗舰级的 Opus 4、高性价比的 Sonnet 4,以及效率优先的 Haiku 4,同时推出了 Claude Code 开发工具包。它们背后的目标不再只是“更强大”,而是让 AI 成为真正“能干事”的工作搭档。
而这一次,Claude 不再只是对话模型,它开始接近一个具备自主任务执行能力、跨模态推理能力和高安全保障的 AI 系统雏形。
Claude Opus 4:不仅是更强,而是更“能干”
Claude Opus 4 是 Anthropic 目前能力最强的模型,甚至在多个维度上超越了 OpenAI Codex-1、o3 和 Gemini 2.5 Pro。
首先是推理深度和持续性。Anthropic 在内部测试中发现,Opus 4 可以在无需人类插手的情况下,连续执行一项编程任务超过 7小时,这对于构建长期自治智能体来说是里程碑式的进展。对比之下,GPT-4 通常只能持续几十分钟。
其次是编码能力。Opus 4 在代码基准测试 SWE-bench 中得分高达 72.5%,超过 OpenAI Codex-1(72.1%)和 Gemini 2.5 Pro(63.2%),成为目前已公开测试中 世界最强的代码大模型。不仅能写函数、改逻辑,它甚至可以理解跨文件结构,进行结构性重构,具备类似“工程意识”的表现。
图:Claude 4 模型在 SWE-bench Verified(真实软件工程任务性能基准测试)上领先
Claude Sonnet 4:高性价比版本,不输旗舰
如果说 Opus 4 是为了大企业和重度用户准备的,那 Sonnet 4 则是 Anthropic 为开发者和中小企业提供的“黄金版本”。
Sonnet 4 的 SWE-bench 编码得分达到 72.7%,甚至略高于 Opus。更重要的是,它在响应速度和成本上做了大量优化,非常适合用于部署到产品工作流中。对于大多数开发者来说,它几乎能满足你 90% 的需求。
图:Claude 4 模型在编码、推理、多模态能力和代理任务方面表现出色。
Claude 的模型也更加“听话”了。无论是长指令、结构化输入,还是格式化输出,Claude 4 系列在遵循复杂指令方面明显优于上一代模型,让它更像一个可靠的助理,而非只会答题的聊天机器人。
Claude Code 工具链:让 AI 真正进开发流程
为了配合 Claude 模型在工程场景的使用,Anthropic 还推出了完整的 Claude Code 工具链,包括 CLI 工具、VS Code 插件、GitHub 集成,未来还将开放 JetBrains 插件。
这意味着 Claude 不只是“能写代码”,更是“能和你一起工作”。它能识别项目结构、补全单元测试、改动多个文件并解释修改原因,逐步变成团队里那个永远在线的“万能实习生”。
引入 AI 安全等级制度,行业首次
当然,模型越强,安全挑战也越大。Anthropic 在发布会上宣布将 Claude Opus 4 定级为 AI 安全等级 3(ASL-3),是目前公开模型中最高的安全级别。
根据披露,Anthropic 在内部红队测试中发现 Opus 4 有能力生成复杂的合成生物设计方案,因而启动了公司级别的“责任扩展政策”,对模型能力进行限制、追踪与加密,并上线漏洞赏金计划与越狱检测机制。
这也是行业首次以“安全等级”形式管理大模型能力,或许预示着未来的 AI 发布流程会更接近“药品审查”或“飞行安全评估”。
结语:Claude 4 是 AI 工具进化的分水岭
过去一年,大模型一路狂飙。但 Claude 4 显示出一个新的方向:AI 不再是惊艳的 demo,而是可以真正做事、协助开发、承担部分责任的“工具合伙人”。
Claude 4 的能力不仅是一次迭代,更是对 AI 应用“落地性”的集中体现。它可以处理现实中复杂、多步骤、跨工具的任务,这意味着我们距离“可控、可靠的 AI 员工”又近了一步。
ChatGPT 还在对话,Claude 4 已经加班。
暂无评论内容