不朽情缘-官方网站

走进不朽情缘 公司简介 不朽情缘官方网站-app下载 新闻中心 公司新闻 媒体报道 产业布局 工业进程 控股集团 产业开发 不朽情缘模拟器(中国)官方网站 企业文化 文化理念 社会责任 公益基金会 联系我们
不朽情缘官方网站-app下载

不朽情缘官网登录Test Time Scaling Law远未达到上限!华为诺亚

2025-07-12 14:41:09

不朽情缘实业股份

  本文的第一作者为华为诺亚研究员李向阳✿ღ◈,毕业于北京大学✿ღ◈,开源组织 BigCode 项目组成员✿ღ◈。此前他们团队曾经推出 CoIR 代码检索基准✿ღ◈,目前已经成为代码检索领域的标杆 benchmark✿ღ◈。其余主要成员也大部分来自 CoIR 项目组✿ღ◈。

  大语言模型(LLM)在标准编程基准测试(如 HumanEval,Livecodebench)上已经接近 “毕业”✿ღ◈,但这是否意味着它们已经掌握了人类顶尖水平的复杂推理和编程能力?

  来自华为诺亚方舟实验室的一项最新研究给出了一个颇具挑战性的答案✿ღ◈。他们推出了一个全新的编程基准 ——“人类最后的编程考试” (Humanitys Last Code Exam, HLCE)✿ღ◈。

  该基准包含了过去 15 年(2010-2024)间✿ღ◈,全球难度最高的两项编程竞赛✿ღ◈:国际信息学奥林匹克竞赛(IOI)和国际大学生程序设计竞赛世界总决赛(ICPC World Finals)中最顶尖的 235 道题目✿ღ◈。

  结果如何?即便是当前最先进的推理模型✿ღ◈,如 OpenAI 的 o4-mini (high) 和 谷歌的 Gemini-2.5 Pro不朽情缘官网登录✿ღ◈,在 HLCE 上的单次尝试成功率(pass@1)也分别只有15.85% 和 11.4%✿ღ◈,与它们在其他基准上动辄超过 70% 的表现形成鲜明对比✿ღ◈。 这表明不朽情缘官网登录✿ღ◈,面对真正考验顶尖人类智慧的编程难题✿ღ◈,现有的大模型还有很长的路要走✿ღ◈。

  近年来✿ღ◈,LLM 在代码生成领域取得了惊人的进步✿ღ◈,许多主流基准(如 LiveCodeBench不朽情缘官网登录不朽情缘官网登录✿ღ◈、APPS 等)已经无法对最前沿的模型构成真正的挑战✿ღ◈。研究者指出✿ღ◈,现有基准存在几个关键问题✿ღ◈:

  2.缺乏交互式评测✿ღ◈:大多数基准采用标准的输入 / 输出(I/O)模式✿ღ◈,而忽略了在真实竞赛中常见的 “交互式” 题目✿ღ◈。这类题目要求程序与评测系统进行动态交互✿ღ◈,对模型的实时逻辑能力要求更高✿ღ◈。

  3.测试时扩展规律(Test-time Scaling Laws)未被充分探索✿ღ◈:模型在推理时花费更多计算资源能否持续提升性能?这个问题在复杂编程任务上尚无定论mg不朽情缘(中国区)官方网站✿ღ◈。

  为构建高质量基准✿ღ◈,研究团队对 HLCE 题目进行了深度处理做错一题做一次TXT✿ღ◈。例如 ICPC World Finals 题目原始材料均为 PDF 格式✿ღ◈,团队通过人工逐题提取做错一题做一次TXT✿ღ◈、转写为 Markdown 并校验做错一题做一次TXT不朽情缘官网登录入口下载✿ღ◈,✿ღ◈,确保题目完整性不朽情缘官网登录✿ღ◈。最终形成的 HLCE 基准包含✿ღ◈:1)235 道 IOI/ICPC World Finals 历史难题✿ღ◈;2)标准 I/O 与交互式双题型✿ღ◈;3)全可复现的评测体系✿ღ◈。

  IOI 交互式题目是 “硬骨头”✿ღ◈:所有模型在 IOI 题目上的表现都远差于 ICPC world finals 题目✿ღ◈。例如✿ღ◈,o4-mini (high) 在 ICPC 上的 pass@1 为 25.21%做错一题做一次TXT✿ღ◈,但在 IOI 上骤降至 6.48%✿ღ◈。研究者认为不朽情缘官网登录✿ღ◈,这与当前模型的训练数据和强化学习方式主要基于标准 I/O 模式有关✿ღ◈,对于交互式问题准备不足✿ღ◈。

  奇特的模型退化现象✿ღ◈:一个例外是 claude-3.7-thinking 模型✿ღ◈,尽管是推理模型✿ღ◈,但其表现甚至不如一些非推理模型✿ღ◈,在 IOI 题目上通过率为 0%✿ღ◈。研究者推测不朽情缘游戏官网入口✿ღ◈。✿ღ◈,这可能是因为 claude 针对通用软件工程任务进行了优化✿ღ◈,而非高难度的算法竞赛✿ღ◈。

  除了代码生成✿ღ◈,研究者还设计了一个新颖的 “自我认知”(self-recognition)任务✿ღ◈:让模型判断自身生成的代码是否正确做错一题做一次TXT✿ღ◈,以评估其能力边界感知力不朽情缘官网登录✿ღ◈。

  这种 “苏格拉底悖论”—— 卓越的问题解决能力与清晰的自我认知能力未能同步发展 —— 暗示在现有 LLM 架构中做错一题做一次TXT✿ღ◈,推理能力与元认知能力(metacognition)可能遵循不同的进化路径✿ღ◈。

  一个关键问题是✿ღ◈:目前 LLM 的推理能力已经非常强了✿ღ◈,目前这种范式达到极限了吗?未来的模型的推理能力还能继续发展吗? 而面对如此高难度的 HLCE benchmark✿ღ◈,这显然是一个绝佳的机会来研究大语言模型的Test Time Scaling Law✿ღ◈。

  研究者将模型生成的每组回答按照 thinking token 的数量按照长短进行分组做错一题做一次TXT✿ღ◈,然后重新测试性能✿ღ◈。从图中可以看出✿ღ◈,随着思考长度的不断延长✿ღ◈,模型的性能在不断的提升✿ღ◈,并且远远没有达到上限✿ღ◈。

  这个结论告诉我们✿ღ◈,可以继续大胆的优化推理模型✿ღ◈,至少在现在远远没有到达 Test Time scaling law 达到上限✿ღ◈。

  基于上述发现✿ღ◈,研究者将模型的最佳表现(基于 5 次尝试✿ღ◈,IOI 取 5 次的最大分数✿ღ◈,ICPC world Finals 取 5 次解决掉的最多题目)与历年 IOI 和 ICPC 世界总决赛的奖牌分数线进行了直接对比✿ღ◈。

  这也解释了一个看似矛盾的现象✿ღ◈:尽管模型单次成功率很低✿ღ◈,但只要给予足够多的尝试机会(这正是 “测试时扩展规律” 的体现)✿ღ◈,它们就能找到正确的解法✿ღ◈,从而在竞赛中获得高分不朽情缘官网登录✿ღ◈。

  这项研究通过 HLCE 这一极具挑战性的基准✿ღ◈,清晰地揭示了当前 LLM 在高级编程和推理能力上的优势与短板✿ღ◈。 它证明了✿ღ◈,虽然 LLM 在单次尝试的稳定性上仍有欠缺✿ღ◈,但其内部已蕴含解决超复杂问题的知识不朽情缘网站✿ღ◈,✿ღ◈。更重要的是✿ღ◈,测试时扩展规律在这一极限难度下依然有效✿ღ◈,为我们指明了一条清晰的性能提升路径✿ღ◈:通过更优的搜索策略和更多的计算投入✿ღ◈,可以持续挖掘模型的潜力✿ღ◈。