月之暗面又开源了!登顶全球第一,还超了新版DeepSeek-R1

摘要

智东西(公众号:zhidxcom)编译 | ZeR0编纂 | 漠影智东西6月17日报道,本日破晓,月之暗面推出针对软件工程任务的全新开源代码年夜 模子Kimi-Dev-72B。该模子在SWE-bench Verified编程基准测试中取得了全球最高开源

智东西(公众号:zhidxcom)

编译 | ZeR0

编纂 | 漠影

智东西6月17日报道,本日破晓,月之暗面推出针对软件工程任务的全新开源代码年夜 模子Kimi-Dev-72B。

该模子在SWE-bench Verified编程基准测试中取得了全球最高开源模子水平,以仅72B的参数目,成绩超过了刚于5月28日宣布 、参数目多达671B的新版DeepSeek-R1。

Kimi-Dev-72B在AI软件工程本事基准测试SWE-bench Verified上取得了60.4%的高分,创下开源模子的SOTA成绩。

通过年夜 规模强化学习 进行了优化。它可以或许自主修补Docker中的真实存储库,而且只有当整个测试套件通逾期才会获得嘉奖。这确保了办理计划 的准确性和妥当性,并相符 实际世界 的开发标准。

Kimi-Dev-72B现已在Hugging Face和GitHub上提供下载和摆设。其宣布 给社区的症结 资本 包含 模子权重、源代码,技能报告也即将推出。

Hugging Face地点:huggingface.co/moonshotai/Kimi-Dev-72B

GitHub地点:github.com/MoonshotAI/Kimi-Dev

月之暗面介绍了Kimi-Dev-72B的计划理念和技能细节,包含 BugFixer和 TestWriter的组合中期练习强化学习 测试时自我博弈

1、BugFixer和TestWriter的组合

成功修复错误的补丁(patch)应能通过准确反应 该错误的单元测试。同时,复现错误的成功测试应激发 断言错误,并在将准确的错误修复补丁运用 到代码库后通过。这致使BugFixer和TestWriter互补,一个足够强大的编程年夜 语言模子应该在这两个方面都表现出色。

BugFixer和TestWriter的工作流程雷同:它们都邑 先找到准确的文件进行编纂 ,然后编纂 准确的代码更新,无论是修复软弱 的实现还是插入unittest函数。因此,对于这两种角色,Kimi-Dev-72B都接纳了相同的极简框架,该框架仅包含 两个阶段:文件当地化和代码编纂 。BugFixer和TestWriter的双重计划奠基了Kimi-Dev-72B的基础。

2、练习中期

为了加强Kimi-Dev-72B作为BugFixer和TestWriter的先验常识 ,月之暗面使用约1500亿个高质量的真实数据进行中期练习。

以Qwen 2.5-72B基础模子为起点,月之暗面网络了数百万个GitHub题目和 PR提交作为其中期练习数据集。数据配方颠末​​全心 构建,使Kimi-Dev-72B 可以或许学习 人类开发者如何推理GitHub题目、编写代码修复和单元测试。

月之暗面还进行了严格的数据净化,将全部存储库从SWE-bench Verified中剔除。

中期练习充分加强了基础模子对实际Bug修复和单元测试的相识,使该模子成为后续强化学习 练习的更佳起点。

3、强化学习

通过恰当的中期练习和SFT,Kimi-Dev-72B在文件当地化方面表现出色。因此,其强化学习 阶段专注于提升其代码编纂 本事。

月之暗面使用了Kimi k1.5中形貌的策略优化方法,该方法在推理任务中表现出色。对于SWE-bench Verified,月之暗面重点关注以下三个症结 计划:

仅基于结果的嘉奖。仅使用Docker的终极执行结果(0或1)作为嘉奖,练习期间不接纳任何基于格式或过程的嘉奖。高效的提示 集。过滤失落 模子在多样本评估下成功率为零的提示 ,从而更有用地使用年夜 量 量。接纳课程学习 (curriculum learning)法,引入新的提示 ,渐渐提高任务难度。正例强化。在练习的最后阶段,将之前迭代中近来成功的样本纳入当前批次。这有助于模子加强成功模式并提升机能 。

Kimi-Dev-72B通过使用高度并行、强大且高效的内部agent基础设施,从可扩年夜 数目的题目办理任务的练习中受益。

4、测试时自我博弈

颠末强化学习 后,Kimi-Dev-72B能同时把握BugFixer和TestWriter的角色。在测试过程中,它会接纳自我博弈机制,和谐自身Bug修复和测试编写的本事。

每个题目最多可生成40个补丁候选和40个测试候选(按照标准无agent设置),可视察 到测试时自博弈的扩年夜 效应。

结语:将来迭代侧重深度集成,更无缝地融入工作流程

月之暗面正在积极研究 和开发扩年夜 Kimi-Dev-72B功能的方法,并摸索 更庞杂 的软件工程任务。

其将来的迭代将侧重于与盛行的集成开发环境(IDE)、版本掌握 体系和CI/CD流水线进行更深入的集成,使Kimi-Dev-72B加倍 无缝地融入开发者的工作流程。

该公司答应将连续改进Kimi-Dev-72B,进行严谨的红队测试,并向社区宣布 更强大的模子。

来源:月之暗面GitHub项目

0

路过

0

雷人

0

握手

0

鲜花

0

鸡蛋

推广
火星云矿 | 预约S19Pro,享500抵1000!
本文暂无评论,快来抢沙发!

有招是一个优质的生活妙招创作平台,在这里,你可以任意分享你的妙招经验,日常生活、技能学习、成长励志、恋爱婚姻……我们相信,每个人都有独特的生活妙招,有着无穷的创造力。
  • 官方手机版

  • 微信公众号

  • 商务合作