摘录要点
- AI减慢了开发者速度:研究发现当经验丰富的开源开发者使用AI工具时,完成任务的时间比不使用时长19%。
- 感知与现实差距明显:开发者预期AI会提高24%的速度,即使在体验减速后,仍认为AI提高了他们20%的效率。
- 减速五大因素:对AI有用性的过度乐观、开发者对代码库的高度熟悉、大型复杂代码库的挑战、AI可靠性低及代码库的隐含上下文。
- 实验控制严格:研究招募了16名经验丰富的开发者,处理246个真实问题,在随机分配的条件下完成任务。
- 结果局限性:这些发现不代表所有软件开发工作,也不意味着未来的AI系统不能提高开发效率。
原文摘录
https://metr.org/blog/2025-07-10-early-2025-ai-experienced-os-dev-study
2025年7月10日
Joel Becker, Nate Rush, Elizabeth Barnes, David Rein
测量2025年初AI对经验丰富的开源开发者生产力的影响
我们进行了一项随机对照试验(RCT),以了解2025年初AI工具如何影响在自己代码库上工作的经验丰富的开源开发者的生产力。令人惊讶的是,我们发现当开发者使用AI工具时,他们比不使用时多花了19%的时间——AI使他们变慢了。我们将此结果视为2025年初AI能力在一个相关环境中的快照;随着这些系统继续快速发展,我们计划继续使用这种方法来帮助评估AI对AI研发自动化的加速作用[1]。
详情请参阅完整论文。
预测与观察到的减速图表

研究动机
虽然编码/智能体基准测试[2]已被证明对理解AI能力很有用,但它们通常为了规模和效率而牺牲真实性——任务是自成一体的,不需要先前的上下文来理解,并使用算法评估,而这种评估无法捕捉许多重要能力。这些特性可能导致基准测试高估AI能力。从另一方面来说,由于基准测试在没有实时人类交互的情况下运行,模型可能会因为一些小障碍而无法完成任务,尽管它已经取得了实质性进展,而这些小障碍在实际使用中人类会修复。这可能导致我们低估模型能力。总的来说,直接将基准测试分数转化为实际应用中的影响可能很困难。
我们有兴趣评估AI在实际应用中的影响的一个原因是为了更好地了解AI对AI研发本身的影响,这可能带来重大风险。例如,极其快速的AI进步可能导致监督或安全保障措施的崩溃。测量AI对软件开发者生产力的影响提供了与基准测试互补的证据,这有助于了解AI对AI研发加速的整体影响。
研究方法
为了直接测量AI工具对软件开发的实际影响,我们招募了16名来自大型开源代码库(平均拥有22,000+星和100万+行代码)的经验丰富的开发者,他们已为这些代码库贡献了多年。开发者提供了对代码库有价值的实际问题列表(总共246个)——包括通常作为他们日常工作一部分的错误修复、功能添加和重构。然后,我们随机指定每个问题允许或禁止在工作时使用AI。当允许使用AI时,开发者可以使用他们选择的任何工具(主要是搭配Claude 3.5/3.7 Sonnet的Cursor Pro——研究时的前沿模型);当禁止使用时,他们在没有生成式AI辅助的情况下工作。开发者在录制屏幕的同时完成这些任务(平均每个任务两小时),然后自行报告他们所需的总实施时间。我们向开发者支付每小时150美元作为参与研究的报酬。
研究方法概述

核心结果
当开发者被允许使用AI工具时,他们完成问题的时间比不用时长19%——这种显著的减速与开发者的信念和专家预测相悖。感知与现实之间的差距令人震惊:开发者预期AI会使他们的速度提高24%,甚至在经历了减速后,他们仍然认为AI使他们的速度提高了20%。
下面,我们展示了开发者预测时间的原始平均值和观察到的实施时间——我们可以清楚地看到,当开发者被允许使用AI工具时,他们需要花费更长的时间。

预测时间和观察到的实施时间图表 鉴于理解AI能力/风险的重要性,以及对这些主题的多样化观点,我们认为避免对我们的结果产生潜在的误解或过度概括是很重要的。我们在表2中列出了我们没有提供证据支持的说法。
我们不提供以下说法的证据: | 说明 |
---|---|
AI系统目前不能提高许多或大多数软件开发者的效率 | 我们不声称我们的开发者或代码库代表了软件开发工作的多数或多数 |
AI系统不能提高软件开发以外领域的个人或团体的效率 | 我们只研究软件开发 |
近期的AI系统在我们的特定环境中不会提高开发者的效率 | 进展难以预测,过去五年AI取得了重大进展[3] |
在我们的特定环境中,没有更有效地使用现有AI系统来获得积极提速的方法 | Cursor没有从LLM中采样许多标记,它可能没有使用最佳提示/脚手架,而领域/代码库特定的训练/微调/少样本学习可能产生积极的提速 |
因素分析
我们调查了可能解释减速的20个潜在因素,发现有5个因素可能有贡献:
因素分析表
因素 | 类型 | 相关观察 |
---|---|---|
对AI有用性的过度乐观(C.1.1) | 直接导致生产力损失的因素 | 开发者预测AI将减少实施时间24%;开发者事后估计AI减少了实施时间20% |
开发者对代码库的高度熟悉(C.1.2) | 提高人类表现的因素 | 开发者在更熟悉的问题上减速更明显;开发者表示他们的经验使AI难以帮助他们;开发者平均有5年经验和在代码库中有1,500次提交 |
大型且复杂的代码库(C.1.3) | 限制AI表现的因素 | 开发者报告AI在大型和复杂环境中表现更差;代码库平均10年历史,代码行数超过1,100,000行 |
AI可靠性低(C.1.4) | 限制AI表现的因素 | 开发者接受的AI生成内容不到44%;大多数开发者报告需要对AI代码进行重大修改才能使用;9%的时间用于审查/清理AI输出 |
代码库的隐含上下文(C.1.5) | 限制AI表现的因素 + 提高人类表现的因素 | 开发者报告AI无法利用重要的隐性知识或上下文 |
我们排除了许多实验产物——开发者使用了前沿模型,遵守了他们的处理任务分配,没有差异性地放弃问题(例如,放弃困难的AI禁用问题,降低AI禁用难度的平均值),并且无论是否使用AI都提交了类似质量的PR。减速在不同的结果测量、估计方法以及我们数据的许多其他子集/分析中持续存在。详情和进一步分析请参见论文。