kaiyun全站体育app下载

你的位置:kaiyun全站体育app下载 > 新闻中心 >

kaiyun.com而 AIME2024 则相背-kaiyun全站体育app下载

发布日期:2026-02-05 20:01    点击次数:193

kaiyun.com而 AIME2024 则相背-kaiyun全站体育app下载

新模子在 MATH 上(以数学竞赛为主)动辄跑分 80% 甚而 90% 以上kaiyun.com,却一用就废。

这合理吗??

为了确凿西席模子数学推理能力,上海东说念主工智能执行室司南 OpenCompass 团队放大招了。

推出新的复杂数学评测集 LiveMathBench,以全新性能方针 G-Pass@16 � � 来连气儿评估模子的性能后劲和安定性。

好家伙!团队在模拟确凿用户使用采样政策、疏浚屡次评测大模子的数学推理能力时发现:

大部分的模子平均会有五成以上的性能着落,即使是最强推理模子 o1-mini 也会着落 3 成 6,更有模子径直着落九成。

具体咋回事儿底下接着看。

全新评价方针 : G-Pass@k

辩论团队重新念念考了大模子评测常用的技巧方针,如传统频频接收的 Pass@k, Best-of-N, Majority Voting,这些方针主要护理模子的性能后劲,短少对模子的鲁棒性的评测。

而确凿场景中,为了提高复兴的千般性,模子频频使用采样解码的样式进行推理,这也会带来大齐的赶紧性。在复杂推理任务中,这种赶紧性会严重影响模子的性能,而用户更预期在确凿问题中,模子能又稳又好。

Pass@k 方针转头

经典的 Pass@k 方针护理模子在屡次生成中至少给出一次正确谜底的概率。假定模子生成次数为� �,正确谜底数为� �,c 示意其中正确解的数目,那么 Pass@k 的谋略样式如下:

兼顾性能后劲与安定性的评测方针 G-Pass@K

Pass@k 体现了模子的性能后劲,却不可体现模子的安定性,基于这一倡导团队将 Pass@k 扩充为 Generalized Pass@k(以下简称 G-Pass@k � �)。

通过引入阈值� �,该责任护理模子在� � 次生成中至少给出 ⎡ � � · � � ⎤次正确谜底的概率。

一般来说,以为模子的每次生成是 i.i.d.(Independent and Identically Distributed)的,那么模子给出的正确谜底数盲从二项漫衍,这不错通过超几何漫衍贴近二项漫衍。基于此,不错得出 G-Pass@k � � 的界说:

在� � 较小时,G-Pass@k � �量度模子的性能后劲;� � 较大时,G-Pass@k � �量度模子的安定性,或者说模子关于问题的掌捏进度,因此辩论者不错通过 G-Pass@k � � 连气儿地不雅察模子的性能后劲与安定性。

进⼀风物,辩论团队还界说了 mG-Pass@k 用于对模子的性能进行举座不雅测。

具体来说,mG-Pass@k 是 � � — G-Pass@k � � 弧线下的面积,为了更好地模拟确凿场景,团队重心磋议� � ∊ [ 0.5,0.1 ] 的情况,即:

G-Pass@K 是 Pass@K 是泛化体式

当⎡ � � · � � ⎤ =1 时,Pass@K 是 G-Pass@k � � 等价,这意味着 Pass@K 是 G-Pass@k � � 的特例,读者不错参考论文附录提供的解说。

辩论团队给出了两者相干的对比分析,如下图所示:

图中展示了不同的� � 和 c 下 Pass@K 和 G-Pass@k � � 的值,不错看出在� � 较小时,两者反馈的是模子的后劲,但是这种分数可能是偏高的,在 24/80 的举座通过率下,Pass@K 方针的值不错接近 80%。

但当护理较高的� � 时,更约略不雅察到模子在内容生成时的确凿性能。

LiveMathBench:幸免数据浑浊的复杂数学评测集

辩论团队构建了一个新的 benchmark LiveMathBench 用于考据执行。

具体来说,他们收罗了最近发布的中国数学奥林匹克,中国高考最新模拟题,好意思国数学竞赛和好意思国普特南数学竞赛中最新的题目,尽量减少数据浑浊的可能性。

通盘 LiveMathBench(202412 版块)包括 238 说念题目,每个题目提供中语 / 英文两个版块的题目,掩饰不同的难度。辩论团队方案后续陆续更新 LiveMathBench 中的题目,来陆续不雅测 LLM 的确凿数学水平。

另外,辩论团队还在两个公开 Benchmark MATH500 和 AIME2024 上进行了执行。

关于 MAH500,辩论团队选拔了难度为 L5 的题目,定名为MATH500-L5;关于 AIME2024,辩论团队使用了 Part1 和 Part2 两个部分一说念 45 说念题目,定名为 AIME2024-45。

执行

在执行设立方面,关于每说念题目,进行了 16*3=48 次生成并证据 G-Pass@16 � � 分数。辩论团队在通用模子、数学模子和类 o1 模子三种不同类型的大模子中选拔了具有代表性的大模子进行执行。

LiveMathBench 性能对比如下:

字据执行效果,不错看到:

大部分闭源模子和开源模子在 G-Pass@161.0 方针上也齐不进步 30 分。

最强的 o1-mini 模子在 G-Pass@161.0 得到了最高分 42 分,相对性能着落比例亦然通盘模子中最低的(36.9%),虽体现出相对较高的安定性,但仍然难以淡薄。

Math-500-L5/AIME2024-45 性能对比如下。

关于开源数据集:

在常用的高中竞赛级别题目 MATH500-L5 上,多数模子不管是规划解码的施展仍是安定性 G-Pass@161.0 的施展齐比较 LiveMathBench 齐有所晋升,而 AIME2024 则相背,大多数模子的 G-Pass@161.0 分数齐唯有个位数,甚而部分模子接近 0 分;

关于难度颇高的 AIME2024,诚然 o1-min 和 QwQ-32B-Preview 在规划解码下施展超越,但面临高难度题咫尺的安定性仍是难以保证,如 QwQ-32B-Preview 甚而跌到了不到本来的 1/5,而其在 MATH500-L5 中却比较安定,达到了原分数的 3/5,这也诠释了最新的高难度数学题目对模子的安定性带来了更大的压力。

终末,模子在不同难度题目上的能力分析如下 。

下表展示了重要模子在 LiveMathBench 两个子集上的性能施展。

其中 CCEE 代表中国高考题目,主要波及到基础的高中数据常识;而 WLPMC 代表来自普特南(Putnam)竞赛的题目,普特南竞赛是久负著明的好意思国大学生数学竞赛,其题目难度要高于高考题目。

由执行效果不错看出,先进的推理模子,举例 DeepSeek-V2.5, Qwen2.5-72B-Instruct, QwQ 等在 Pass@16 方针下在两个子集上齐有较好的性能,但大部分模子在 WLPMC 上的安定性着落更为严重。

因此不错有如下推测,推理模子容易学习到西席数据中的泛泛解,导致 Pass@k 等方针的飞腾,但是在费劲的问题上,这种晋升并不与模子确凿推感性能晋升有关。在强基座模子的西席中,更应该护理推理安定性的施展,以晋升其确凿推理能力。

遑急不雅测不雅察一:闭源和开源模子均不可安定地进行复杂推理

辩论东说念主员对面前主流的约 20 个模子进行了测试,发现尽管多数模子在规划解码的准确率 Greedy Accuracy 和 Pass@16 上施展相对较好,但当使用 G-Pass@K 方针进⾏评估时,性能却显耀着落。

当� � 设立为 1.0 时,即要求模子在通盘 16 次采样中齐提供正确谜底, 险些通盘模子的施展齐急剧着落。

举例,在对 LiveMathBench 的测评中,Llama-3.1-8B-Instruct 模子的准确率从 18.1% 着落到 0.8%(G-Pass@16 � �=1.0),降幅高达 95.7%。即使是较大的模子,如 NuminaMath-72B-CoT,其准确率也从 34.45% 着落到 3.7%,减少了 89.3%。

在直快 20 个测试模子中,平均性能着落了 60%。即即是施展最为安定的 OpenAI o1-mini,其准确率也从 66.5% 着落到 42.0%,降幅为 36.9%。

即使将� � 放宽到 0.5,即只消求一半的样本正确即可通过,通用模子、数学推理模子和 o1-like 模子仍差别履历了 14.0%、22.5% 和 4.8% 的平均性能着落。

这标明,在复杂要求下,多数模子难以在屡次采样中保持一致的推理能力。

不外现在的评估方针平素依赖单次规划解码,可能无法充分反馈这些模子在内容哄骗中的鲁棒性和安定性。

因此,辩论团队指出,需要对模子的推理能力进行更严格的评估,尤其是在那些需要在屡次采样中保持一致性和可靠性的遑急哄骗中。

不雅察二:增大模子界限对推理能力的晋升有限

辩论东说念主员不雅察到,以同系列模子 Qwen2.5-32B-Instruct 与 Qwen2.5-72B-Instruct 为例,诚然它们的模子界限进出一倍以上,但不管方针接收 G-Pass@K 仍是 Greedy Accuracy,不管评测数据集是最新的 LiveMathBench 仍是现存开源数据集,两者的施展均同样。

另外,在更大体量的模子 Mistral-Large-Instruct-2411(123B)上,尽管模子界限陆续增大,但其性能和安定性比较 Qwen2.5-72B-Instruct 却出现下滑。

这标明,关于需要深度默契和逻辑推理的任务,直快增大参数并不可显耀晋升性能或安定性。

这可能是因为这些任务不仅需要模子具备挂念和模式识别能力,更需要强盛的推理和高下文默契能力。

不雅察三:模子的性能后劲和内容施展之间的弘大差距

辩论团队在评估模子性能时发现,表面最大能力 G-Pass@16 � � → 0、内容施展能力 Greedy Accuracy 和屡次采样下的安定能力 G-Pass@16 � �=1.0 之间存在显耀差距。

尽管模子在表面上具备颠倒高的潜在性能,但在内容哄骗中未能充分展现这一水平,尤其是在输出安定性方面。一些模子在单次规划解码中施展出高准确率,显露出处理特定任务的后劲,但在保持一致高准确率方面却不安定,远未达到最好性能。

这反馈了现存模子在推理安定性和一致性上的不及,这在西席和评估中常被忽略。

模子在单次推理施展中易受输入数据变化、驱动化情景或赶紧采样的影响,导致不同采样解码的效果不一致。

辩论东说念主员指出,在高可靠性和一致性要求的内容哄骗中,如安在保持接近最好性能的同期确保输出的安定性,是一个亟待处罚的问题。

总结

本辩论深切分析了面前大型模子的数学推理能力,提议了全新的性能方针 G-Pass@16 � �  ,用于连气儿评估模子的性能后劲和安定性。

此外,还想象了幸免数据浑浊的 LiveMathBench 数据集。

执行效真的切,现在的大型模子在推感性能方面未达到预期,尤其在屡次疏浚采样时,性能出现显耀着落。辩论团队祈望学术界和工业界约略在推理能力的鲁棒性辩论上陆续探索与推动。

论文连气儿:https://arxiv.org/abs/2412.13147

容貌地址:https://github.com/open-compass/GPassK

—  完  —

投稿请发邮件到:

ai@qbitai.com

标题注明【投稿】,告诉咱们:

你是谁,从哪来,投稿内容‍

附上论文 / 容貌主页连气儿,以及预计样式哦

咱们会(尽量)实时复兴你

点这里� � 护理我,难忘标星哦~

一键三连「共享」、「点赞」和「在看」

科技前沿进展日日相遇 ~