2026-06-15T23:05:00+08:00 (最后更新: 2026-06-15T23:05:00+08:00) AI 前沿观察

AI 编程观察：Composer 2.5 便宜了，但工程瓶颈没有消失

Cursor Composer 2.5 把编码模型的价格和速度推到新位置，同时 NormalTech 对软件工程岗位的分析提醒我们：AI 压缩的是执行层，不是需求判断、验证交付和责任承担。

#AI 编程#Coding Agent#Cursor#Composer 2.5#软件工程#AI 工作流

查找相关文章

输入工具名、术语或排障信息，直接找到站内相关内容。

快速摘要

核心结论

今天的两个信号放在一起看很有价值：编码模型越来越便宜、越来越贴近 IDE 和 CLI 工作流，但软件工程的关键瓶颈仍然在决策、验证、交付和责任承担。

适合谁读

适合正在用 Cursor、Claude Code、Codex、Copilot 或其他 coding agent 的开发者、技术负责人和小团队。

关键判断

Artificial Analysis 报告 Composer 2.5 在 Coding Agent Index 得分 62，标准模式约 $0.07/任务，Fast 模式约 $0.44/任务；NormalTech 文章引用研究称 AI agent 让代码行数大幅增加，但 release 增长远小于代码增长。

下一步

把 AI 编程工具当作执行层加速器使用，同时为需求拆解、测试验证、代码审查和发布回滚保留明确的人类责任边界。

今天的 AI 编程新闻有两条线索值得放在一起看。

第一条是工具层面的：Cursor 的 Composer 2.5 继续把 coding agent 的成本往下压。Artificial Analysis 在 2026 年 5 月 21 日的评测文章中写到，Composer 2.5 在 Coding Agent Index 得分 62，排在 Claude Opus 4.7 max 和 GPT-5.5 xhigh 之后，但标准模式单任务成本约 $0.07，Fast 模式约 $0.44。DeepLearning.AI 的 Data Points 也提到，Composer 2.5 在 SWE-Bench Multilingual、CursorBench 等指标上接近一线模型，同时价格明显更低。

第二条是工作本质层面的：Arvind Narayanan 和 Sayash Kapoor 在 AI as Normal Technology 上发布长文，讨论为什么 AI 没有替代软件工程师，也不太会按“能力达到某个阈值就大规模裁员”的方式替代。他们把软件开发概括成一个 decide-execute-deliver sandwich：决定做什么、执行实现、交付并负责结果。AI 压缩的是中间的执行层，但两端的判断、验证和责任并没有消失。

这两条合在一起，正好说明当前 AI 编程的真实变化：代码生成正在变快、变便宜、变常态，但工程工作并没有因此自动变简单。

Composer 2.5 的意义：低成本 coding agent 进入日常区间

如果只看模型榜单，Composer 2.5 当然可以被写成“又一个强模型”。但更值得关注的是成本结构。

根据 Artificial Analysis 的数据，Composer 2.5 标准模式约 $0.07/任务，Fast 模式约 $0.44/任务；相比更高 effort 的 Claude Opus 4.7 和 GPT-5.5 组合，单任务成本低一个数量级以上。它还被描述为继续基于 Moonshot 的 Kimi K2.5 open weights 做训练，并由 Cursor 追加自己的训练和强化学习。

这意味着什么？

对普通开发者来说，这种模型不一定在每个复杂任务上都超过最强闭源模型，但它把“让 agent 多试几次”变得更可承受。过去你可能只愿意把最关键的任务交给高价模型，现在则可能把更多日常修改、文档整理、测试补齐、UI 小改、脚本维护交给一个便宜但足够强的模型。

对工具厂商来说，这也意味着 IDE 和 CLI 的竞争不只是“接入哪个大模型”，而是开始进入“为自己的工作流训练模型”的阶段。Cursor 不是只把通用聊天模型塞进编辑器，而是在尝试围绕文件编辑、终端执行、长任务迭代和错误修复来优化自己的模型。

这会推动一个明显趋势：AI 编程工具会越来越像完整工作环境，而不是一个侧边栏聊天框。

便宜代码会带来新的工程压力

低成本并不只带来好处。代码越容易生成，越容易出现两个副作用。

第一，团队会产生更多未经充分理解的代码。

当 agent 可以十分钟改完一批文件，人会自然倾向于让它多做一点。短期看，这是效率提升；长期看，如果缺少测试、日志、review 和回滚机制，维护成本会被悄悄推高。

第二，review 压力会从“写代码的人”转移到“负责验收的人”身上。

过去一个人写代码，他通常至少知道自己改了什么。现在 agent 可能一次改出很多文件，审查者需要额外花时间确认：需求是否理解正确、改动是否过大、边界条件是否覆盖、是否引入安全风险、是否影响后续维护。

这也是为什么“便宜模型”不等于“便宜交付”。模型价格下降，只降低了生成候选方案的成本；真正上线还要支付理解、验证、沟通和维护成本。

为什么“AI 会写代码”不等于“AI 替代软件工程师”

NormalTech 文章最有用的地方，是把“写代码”从“软件工程”里拆出来。

软件工程不是单纯把代码打进电脑。真正耗时的部分经常是：

识别用户真正需要什么；
判断一个需求是否值得做；
把模糊目标拆成可交付范围；
和历史系统、团队约束、上线风险对齐；
验证结果是否真的解决问题；
出问题后能追溯、回滚和承担责任。

AI 可以明显压缩执行层。它可以写函数、改组件、补测试、读日志、找错误、生成迁移脚本。这些能力已经足够改变开发方式。

但如果需求本身是错的，AI 会更快地把错误需求实现出来。如果验收标准不清楚，AI 会生成一个看起来合理但无法判断是否成功的结果。如果团队没有测试和回滚，AI 会更快地制造不可控变更。

所以更准确的说法不是“AI 替代工程师”，而是“AI 让工程师的工作重心上移”。人需要少写一些重复代码，多做一些定义问题、检查结果、设计验证路径和维护系统边界的工作。

小团队应该怎么用这类工具

对小团队来说，Composer 2.5 这类低成本 coding agent 很诱人。它能把很多原本不值得自动化的小任务变成可自动化任务。

但使用方式要克制。

第一，把任务切小。

不要一上来让 agent “重构整个系统”。更好的任务是：给某个表单补校验、给某个 API 增加错误处理、给某个脚本增加日志、给某个页面修复移动端布局、为某个函数补测试。

第二，每个任务都要有验收命令。

让 agent 不只写代码，还要说清楚怎么验证。能跑单测就跑单测，能跑构建就跑构建，能用浏览器手测就写下手测路径。

第三，把 AI 当作执行者和第二审查者，而不是最终责任人。

一个实用流程是：人写目标和约束，AI 给方案和补丁，AI 再自查风险，人运行验证，最后人决定是否合并。

第四，记录失败。

AI 编程工具最容易被忽视的价值，不是一次写对，而是失败后能留下线索。每次失败都应该记录：原始任务是什么、模型误解了哪里、测试暴露了什么、最终怎么修。

鲲鹏 AI 观察

今天这两条新闻的共同指向很清楚：AI 编程正在从“模型能力竞争”进入“工作流成本竞争”。

Composer 2.5 代表的是执行层成本下降。NormalTech 的分析提醒我们，执行层下降以后，真正稀缺的是判断、验证和责任。

所以，未来衡量一个 AI 编程工具，不能只问它是不是最强模型。更应该问：

它能不能在真实仓库里稳定理解上下文？
它能不能把任务拆小，而不是大面积乱改？
它能不能主动补测试和解释验证方法？
它能不能留下可审查的变更记录？
它能不能降低维护成本，而不是只提高代码产量？

如果答案是肯定的，它就是工程工具；如果答案是否定的，它只是一个很会写初稿的模型。

参考来源

DeepLearning.AI: Cursor Composer undercuts competition
Artificial Analysis: Cursor’s Composer 2.5: third on the Coding Agent Index and ~10-60x lower cost than rivals
AI as Normal Technology: Why AI hasn’t replaced software engineers, and won’t
Simon Willison: June 14, 2026 archive note on the essay

继续阅读

先用在线工具

需要处理 JSON、XML、YAML 或 Prompt 时，可以先从工具页进入。

看项目实践

想了解这些方法如何进入真实构建和实验，可以继续看项目页。

查资源清单

需要检查清单、资源入口或 SOP 起步包，可以继续看资源页。

找可复用 Skill

需要可重复的判断、搜索和清理动作，可以继续看 Skill 页面。

要点总结

- Composer 2.5 的重点不是单纯榜单分数，而是低成本 coding agent 进入可持续日常使用区间。
- 低成本会鼓励更多试错和更多代码产出，但也会放大验证、维护和 review 的压力。
- NormalTech 的 decide-execute-deliver 模型解释了为什么“AI 会写代码”不等于“AI 替代软件工程师”。
- 小团队采用 AI 编程工具时，最应该补齐的是测试、日志、回滚、验收标准和代码所有权。

常见问题

Composer 2.5 是不是已经可以替代 Claude Code 或 Codex？

不能只根据单一榜单判断。它在成本和部分 coding agent 评测上很有竞争力，但不同工具的上下文管理、终端执行、权限控制、调试体验和团队流程差异很大，仍需要按真实任务测试。

AI 写代码变便宜以后，普通开发者最应该注意什么？

不要把便宜产出等同于可靠交付。代码越容易生成，越需要明确测试、review、运行验证和维护责任。

这篇适合直接按模型榜单选工具吗？

不适合。榜单和成本只能作为初筛，真实选择还要看你自己的仓库、任务类型、测试方式、上下文长度、终端执行能力和团队 review 流程。