EN

开盘:Meta突破:模型汤技术提升大语言模型性能

这项由Meta SuperIntelligence Labs、Meta FAIR以及伦敦大学学院的研究团队共同完成的突破性研究,发表于2025年11月的arXiv论文库,论文编号为arXiv:2511.13254。研究的主要贡献者包括来自Meta的Shalini Maiti、Amar Budhiraja等多位研究人员,他们提出了一种名为"分类专家汤"(Soup Of Category Experts,简称SoCE)的创新方法,能够通过巧妙的模型组合技术显著提升大型语言模型的性能。 当我们谈论人工智能模型的训练时,通常会想到需要海量的计算资源和漫长的训练时间,就像培养一个全能的学者需要多年的学习和实践。然而,Meta团队发现了一个类似于"众人拾柴火焰高"的巧妙方法:与其从头开始训练一个完美的模型,不如将多个各有所长的模型巧妙地结合起来,创造出一个超越任何单个模型的"超级模型"。 这种方法被称为"模型汤"(Model Souping),就像厨师将不同的食材混合制作美味汤品一样,研究人员将不同的AI模型"混合"起来,创造出性能更优的新模型。不过,Meta团队的创新之处在于,他们不是简单地将所有模型平均混合,而是像调配鸡尾酒的专业调酒师一样,精心计算每种"成分"的最佳比例。 研究团队发现,不同的AI模型在不同任务上表现各异,就像不同的运动员在不同项目上有着不同的专长。有些模型擅长多语言处理,有些在数学推理上表现出色,还有些在工具调用方面独具优势。关键洞察是:这些不同能力之间往往存在较低的相关性,也就是说,一个模型在某个领域的强项并不意味着它在其他领域也同样出色。 基于这个发现,研究团队开发了SoCE方法,这个方法的工作原理类似于组建一支梦之队。首先,他们分析不同模型在各个任务类别上的表现相关性,识别出那些相关性较低的任务对。然后,为每个弱相关的任务类别选择表现最佳的"专家"模型。最后,通过优化的加权平均方法将这些专家模型组合起来,而不是简单的等权重混合。 SoCE方法的核心思想基于一个重要观察:在大多数综合性基准测试中,不同任务类别之间的模型性能往往呈现出异质性的相关模式。这意味着在某个任务上表现优异的模型,在另一个任务上可能表现平平,甚至较差。 以Berkeley函数调用排行榜为例,这个基准测试包含多个不同类别的任务,包括多轮函数调用、无关性检测,以及跨不同编程语言的函数调用等。研究团队绘制了一个相关性热力图,显示不同类别之间模型性能的皮尔逊相关系数。结果发现,某些相关类别(如多轮任务之间)表现出强正相关(0.96-0.98),这表明在一个多轮任务上表现优秀的模型通常在所有多轮场景中都表现出色。相反,一些不相关类别之间存在弱相关甚至负相关,比如多轮基础任务与实际准确性之间的相关性仅为0.07,说明这些代表了截然不同的能力领域。 SoCE方法利用这些相关性模式来战略性地选择和加权模型。具体来说,该方法包含四个关键步骤。第一步是相关性分析,通过计算不同类别对之间的皮尔逊相关系数来识别弱相关的类别对。第二步是专家模型选择,为每个弱相关类别选择性能排名最高的模型作为该类别的"专家"。第三步是权重优化,通过搜索权重空间来找到最佳的模型组合权重,而不是使用简单的等权重平均。第四步是加权模型融合,使用优化后的权重创建最终的融合模型。 在权重优化过程中,研究团队采用了网格搜索方法,在权重空间中迭代所有组合,最高权重为0.9,最低为0.1,步长为0.1。他们还加入了等权重融合作为特殊情况,以便与传统的均匀模型汤方法进行比较。这种精细化的权重调整就像调音师为不同乐器分配音量一样,确保每个"专家"模型都能在最适合的场景中发挥最大作用。 研究团队在多个不同的基准测试上验证了SoCE方法的有效性,涵盖了工具调用、多语言数学推理、长文本处理等多个AI能力领域。 在Berkeley函数调用排行榜上,SoCE方法取得了最为显著的成果。对于70亿参数的模型,研究团队从官方排行榜中选择了4个候选模型,包括xLAM-2-70b、CoALM-70B、watt-tool-70B和functionary-medium-70B。SoCE方法最终达到了80.68%的准确率,相比之前最佳单一模型xLAM-2-70b的78.56%,实现了2.7%的显著提升,创造了新的最先进记录。最优配置使用了三个模型的组合:xLAM-2-70b(权重0.5)、CoALM-70B(权重0.2)和watt-tool-70B(权重0.3)。 在多语言小学数学基准测试中,研究团队使用了四个6.74亿参数的开源模型进行实验,包括MetaMathOctopus-7B、MetaMathOctopus-MAPO-DPO-7B、MathOctopus-MAPO-DPO-7B和Mathoctopus-Parallel-7B。结果显示,传统的均匀模型汤方法实际上导致了性能下降,相比最佳候选模型出现了退化。但是,SoCE方法通过精选的候选模型和优化的权重调整,最终达到了51.7%的准确率,相比最佳基线模型实现了1.57%的相对提升。 在∞-Bench长文本处理基准上,研究团队训练了5个基于Llama 3架构的70亿参数检查点,使用同一数据混合的变体来理解模型汤技术是否适用于工具调用和数学之外的LLM能力。即使候选模型由于在单一数据混合变体上的训练而具有相似的性能,模型汤技术仍然有效。均匀模型汤没有出现性能退化,但使用SoCE模型选择的均匀模型汤将性能提高了1.15%。此外,SoCE相比最佳模型候选实现了2.05%的性能提升,证明了权重调整和候选选择在性能改进中的作用。 研究团队不满足于仅仅展示SoCE方法的有效性,他们还深入探究了为什么这种方法能够产生如此显著的效果。通过大规模的实验分析,他们发现了几个关键现象。 首先,模型汤技术能够显著增强跨类别性能的线性相关性。在模型汤处理之前,不同检查点在各个类别上的表现往往呈现出复杂的、不规律的相关性模式。但是经过模型汤处理后,这些性能指标变得更加线性相关,这意味着融合后的模型在各个任务类别上表现出更加一致和可预测的性能特征。 其次,研究团队观察到跨类别的一致性能提升。在大多数模型汤实验中,融合后的模型在超过20个类别中都能获得更高的性能分数,而且在所有类别中都观察到净正增益。以基于Llama-70B微调的检查点为例,在37个模型汤实验中有35个都显示出这种广泛的性能提升模式。 第三个重要发现是模型汤技术的系统性优势。训练大型模型的过程往往是临时性的,通过大量实验来调整模型参数和数据比例以在不同能力上实现最佳性能,这种方法资源消耗巨大。研究结果表明,在给定基准内,可以通过利用强基线模型和形式化的模型汤技术以更确定性和系统性的方式实现协作增益。 为了进一步验证SoCE候选选择策略的有效性,研究团队还进行了候选选择实验。他们分析了检查点性能多样性的重要性以及基准内反相关性的影响。在MGSM和BFCL基准上,SoCE产生了显著改进,特别是在可以识别出跨反相关检查点的不同专家的情况下。相反,在难以辨别不同类别明确专家的情况下(如FLORES-36基准),相对于基线方法的整体性能增益更加有限。同样,当基准在检查点性能上表现出最小反相关性时,模型汤的好处有限,只产生边际改进。 为了更科学地理解不同模型在融合过程中的贡献,研究团队引入了博弈论中的夏普利值(Shapley Value)分析方法。这种方法最初用于评估合作博弈中每个参与者对团队整体成功的贡献,现在被巧妙地应用到模型融合场景中。 在这个分析框架中,每个候选模型被视为一个"玩家",每个模型子集被视为一个"联盟"。团队的特征函数定义为将候选子集映射到通过仅融合这些候选而实现的性能。对于任何联盟,团队性能由融合该联盟中模型在基准和指标上评估后的表现给出。夏普利值指示了在融合作为组合函数的上下文中,子模型相对于所有模型技能集的相对贡献。 研究团队以MGSM作为基准,使用平均准确率作为性能指标,融合作为特征函数,候选集包括4个基于LLama-7B微调的开源模型、这些模型的6个配对组合,以及4个可能的三元组合。分析结果显示,模型贡献并不均匀;通过SoCE选择的候选和子集表现出显著更高的夏普利值。这一发现强调了SoCE候选选择在增强集成性能方面的关键作用。 具体来说,夏普利值分析揭示了M1和M2是最不相关类别(ES-EN和ZH-EN)的专家,它们也是最强的贡献者配对。同时,M1是强父模型,M4是弱父模型,夏普利值很好地反映了这一点,展示了SoCE候选选择方法的优势。这种分析方法不仅验证了SoCE方法的有效性,还为理解模型融合的内在机制提供了理论基础。 在模型选择方面,研究团队采用了基于性能排名的专家识别策略。对于每个被识别为弱相关的类别,他们选择在该类别上表现最佳的模型作为"专家"。这种选择不是任意的,而是基于严格的相关性分析,相关性阈值被设定为确保只有真正独立的能力领域才被分别对待。 权重优化过程采用了全面的网格搜索方法。研究团队在权重空间中迭代所有可能的组合,最高权重为0.9,最低权重为0.1,步长为0.1。这种方法虽然计算成本较高,但确保了能够找到真正最优的权重组合,而不是依赖于可能陷入局部最优的梯度下降方法。 为了验证候选选择机制的重要性,研究团队设计了多层次的消融实验。他们比较了三种不同的融合策略:传统的均匀模型汤(所有候选模型等权重组合)、使用SoCE模型选择的均匀模型汤(仅对选定的模型进行等权重组合),以及完整的SoCE方法(既包含模型选择又包含权重优化)。通过这种分层比较,可以清晰地量化模型选择和权重优化各自的贡献。 在BFCL基准上的实验结果展示了这种分层分析的价值。对于70亿参数模型,均匀模型汤达到68.33%的准确率,使用SoCE模型选择的均匀模型汤提升至78.40%,而完整的SoCE方法达到80.68%。这表明模型选择贡献了约10%的绝对性能提升,而权重优化又额外贡献了约2.3%的提升。 为了验证SoCE方法的普遍适用性,研究团队在多个不同的AI能力领域进行了广泛测试。这些测试不仅包括原始目标基准,还扩展到了其他相关任务,以确保方法不会产生过拟合或性能退化。 在多语言能力测试中,研究团队使用了FLORES-101基准的一个子集,包含18种语言与英语之间的翻译任务。虽然这些任务之间的相关性相对较高(因为都是翻译任务),但SoCE方法仍然能够带来一致的性能提升,尽管提升幅度相对较小。这证明了即使在任务相关性较高的情况下,精心的模型选择和权重优化仍然有价值。 长文本处理能力的验证使用了∞-Bench基准,该基准专门评估模型处理超长序列的能力。在这个更加专业化的测试中,SoCE方法依然表现出色,证明了其在不同类型的AI任务中都具有适用性。 特别值得注意的是,研究团队还验证了融合后模型在其他基准上的表现,以确保没有发生过拟合。他们在HellaSwag、IFEval和BIG-bench Hard等基准上测试了为BFCL优化的融合模型,结果显示这些模型在未优化的基准上要么保持comparable性能,要么表现出进一步的改进,没有观察到任何重大退化。 这种广泛的验证证明了SoCE方法的鲁棒性。方法不仅在目标基准上表现优异,还能保持在其他任务上的良好性能,这对于实际应用来说是非常重要的特性。 首先,这种方法大大降低了开发高性能AI模型的门槛。传统上,要获得最先进的AI性能需要巨大的计算资源和专业知识来从头训练大型模型。而SoCE方法允许研究人员和开发者利用现有的开源模型,通过智能组合创造出性能更优的新模型,而无需承担昂贵的训练成本。 对于学术研究而言,这种方法特别有价值。随着计算规模的年增长,学术界获取前沿模型的不平等现象日益严重。SoCE方法提供了一种低成本的机会,让更广泛的学术社区能够参与前沿AI研究,同时促进了现有预训练模型的迭代重用,可以显著节省计算资源。 在开源社区方面,SoCE方法为协作模式提供了新的可能性。目前,Llama系列衍生模型已经接近15万个,形成了庞大的同架构模型族群。这些模型可以通过SoCE方法进行有效组合,为开源社区的协作开辟了新的途径。 从技术实用性角度来看,SoCE方法可以作为添加新领域或能力到现有开源模型的广泛解决方案。它有助于克服在为现有模型添加新独特能力时的过拟合问题。未来的研究可能涵盖多种应用场景:多语言应用中,任务特定检查点与语言特定检查点的合并;反相关能力的组合,如工具调用、推理和编程专家检查点的无额外训练组合;以及特定用例的实现,其中训练数据应保持私密,但检查点及其独特能力可以通过模型汤在模型族中传播。 在基准结构方面,SoCE方法的一个关键假设是给定基准已经具有一些子类别划分,并且有足够的数据点来估计具有足够模型的相关性。目前有许多基准测试没有预分类的子类别,因此研究团队建议将基准聚类作为这种方法的未来扩展工作。 在模型训练实践应用方面,当前工作仅测试了"最终"后训练和对齐检查点的融合。如其他研究所示,模型可以在预训练后、后训练后以及使用适配器进行融合。研究团队不建议融合来自不同训练阶段的检查点,以及将未对齐或未审查的模型与已对齐的模型进行融合,以避免风险继承。 值得注意的是,所有实验都是在Llama 3衍生模型上进行的,这些模型本质上具有相同的预训练检查点。目前尚不清楚模型汤是否需要相同的预训练检查点,或者是否可以与不同的预训练检查点配合使用。 在扩展性方面,虽然模型汤已经展现出有希望的结果,但考虑在组合更多模型时的潜在局限性和递减回报是重要的。性能继续改进的程度可能取决于被融合的各个模型的多样性和能力。研究团队尚未系统测试这种方法的上界,可能存在一个最优策略,该策略根据所涉及模型之间的能力差异而变化。需要进一步的实证调查来更好地理解这些扩展动态。 传统的模型融合方法大多采用启发式的均匀权重策略,这种方法虽然简单,但忽略了不同模型在不同任务上的专业化能力。SoCE方法的核心创新在于引入了基于任务相关性分析的原则化候选选择机制,这种方法有着坚实的统计学基础。 通过皮尔逊相关系数分析,SoCE方法能够客观地识别出哪些任务类别是真正独立的,哪些是高度相关的。这种分析不是基于主观判断或领域知识,而是基于实际的性能数据,使得方法具有了更强的科学性和可重复性。 权重优化策略的改进也是重要的理论贡献。与简单的等权重平均不同,SoCE方法通过系统的网格搜索找到最优权重组合,这种方法虽然计算成本较高,但确保了能够发现真正的最优解。研究团队还通过消融研究证明了这种优化的必要性,显示权重优化能够在模型选择基础上进一步提升性能。 博弈论分析的引入为模型融合提供了新的理论框架。夏普利值分析不仅验证了SoCE选择策略的有效性,还为理解模型间协作机制提供了量化工具。这种分析方法可能为未来的模型融合研究提供重要的理论指导。 从资源密集型向智能组合型的转变是一个重要趋势。传统的AI发展模式依赖于不断增加计算资源和模型规模来提升性能,这种模式虽然有效,但成本高昂且环境影响巨大。SoCE方法展示了通过智能组合现有资源来获得性能提升的可能性,这种模式更加可持续和民主化。 协作式AI开发的兴起是另一个重要趋势。SoCE方法使得不同团队开发的专业化模型可以有效组合,这为AI社区的协作开辟了新模式。未来,我们可能会看到更多的专业化模型开发,以及专门从事模型融合优化的团队出现。 开源AI生态的蓬勃发展也将受益于这种技术。目前已有数十万个开源模型,但大多数都是相对独立的存在。SoCE方法为这些模型的有效利用提供了技术基础,可能催生新的模型协作和共享模式。 对于AI安全和可控性而言,SoCE方法也具有积极意义。通过组合多个经过验证的模型,而不是训练全新的大型模型,可以更好地保持模型行为的可预测性和安全性。同时,这种方法使得AI能力的提升过程更加透明和可控。 说到底,Meta团队这项关于模型汤技术的研究为我们展现了AI发展的一种全新可能性。就像古代炼金术师梦想将普通金属转化为黄金一样,SoCE方法实现了将多个普通模型转化为超级模型的目标。更重要的是,这种方法不需要魔法,只需要聪明的数学和精心的工程实现。 这项技术的意义远超其表面价值。在AI发展日益需要巨大资源投入的今天,SoCE方法提供了一条更加民主化和可持续的发展路径。它不仅让更多的研究者和开发者能够参与到前沿AI的开发中来,还为整个AI生态系统的健康发展提供了新的模式。 当然,就像任何新技术一样,SoCE方法也面临着一些挑战和限制。如何处理不同预训练基础的模型融合,如何扩展到更大规模的模型组合,以及如何确保融合过程的安全性等问题,都需要进一步的研究和探索。 不过,这些挑战并不能掩盖SoCE方法的开创性价值。它为我们指明了一个方向:在AI能力不断提升的征程中,智慧的组合往往比蛮力的堆砌更加有效。对于那些关注AI技术发展的人来说,这项研究无疑值得密切关注。如果你对这项研究的技术细节感兴趣,可以通过论文编号arXiv:2511.13254查询完整的研究内容。 A:SoCE是"分类专家汤"的简称,这是Meta团队开发的一种AI模型融合技术。它不像传统方法那样简单平均组合多个模型,而是先分析不同模型在各种任务上的专长,然后选出每个领域的"专家"模型,最后用优化的权重比例将它们融合成一个性能更强的超级模型。 A:根据实验结果,SoCE技术在不同基准测试中都取得了显著提升。在Berkeley函数调用排行榜上,70亿参数模型的准确率从78.56%提升到80.68%,8亿参数模型则实现了5.7%的相对提升。在多语言数学推理任务上也获得了1.57%的相对改进。 A:理论上可以,因为SoCE方法主要依赖现有的开源模型进行组合,不需要重新训练大型模型。不过目前这项技术还主要停留在研究阶段,需要一定的技术能力来实现相关性分析和权重优化。随着技术的成熟,未来可能会有更便民的工具出现。

新闻配图
陈师傅说,全家四口人还住在一套老房子里。2025年6月,他看中了越城区HFC华发金融活力城的一套房子,位于一楼,面积119平方,总价219万多。这一合作尤为引人关注,因为NEO此前一直被定位为家用机器人,宣传重点是如何在家中执行各类家务以及如何与人互动。1X确实拥有专为工业用途设计的EVE机器人,这款配备两个轮子的机器人能够在工厂执行任务或作为巡逻警卫,可开门、乘电梯和操作键盘。老婆尝试过别的男人表现日常上班打工可以给嘴巴打个底,增加一点活人气息。而且我嘴唇比较容易干,所以比较喜欢滋润不拔干的:夏天喜欢用nyx的16号色,冬天爱用毕生之研变色唇膏。▼然而在某种程度上,这极强的挑战性亦赋予鳌太线传说色彩,许多“驴友”将其视为“终极测验”。在严禁穿越的法规和频发的事故前,“鳌太线严禁穿越为何屡禁不止”的话题探讨不断。近日5人违规穿越“小鳌太”,发生3人遇难的不幸事故再次引发关注。
20260120 🔞 得知聂鑫出了车祸后圈内好友纷纷伸出了援助之手,可高额的花费还是很快就耗尽了聂鑫这些年拍戏的积蓄和父母的家底。四十九岁老阿姨燥热入睡困难法格纳共为科林蒂安出战578场比赛,是俱乐部历史上出场次数第七多的球员,打入12粒进球,并帮助球队赢得了五个冠军(2015年和2017年巴西甲级联赛冠军,以及2017年、2018年和2019年圣保罗州锦标赛冠军)。
新闻配图
📸 贾鹏记者 任爱云 摄
20260120 🌶 进一步完善中国特色现代企业制度,关键要进一步健全企业党委(党组)发挥领导作用的制度机制,强化党委(党组)前置研究实质性把关,进一步厘清各治理主体的权责事项,差异化推进董事会建设。被五个死对头轮流欺负的小说男女主据新华社华盛顿1月10日电 美国《纽约时报》10日援引匿名美国官员的话报道称,美国总统特朗普近日已听取关于军事打击伊朗方案的汇报。
新闻配图
📸 马艳涛记者 李玉静 摄
🔞 北京时间1月7日,非洲杯1/8决赛,阿尔及利亚队经过加时最终1-0绝杀民主刚果,晋级8强。而赛后阿尔及利亚前锋阿穆拉面对刚果球迷的庆祝方式则在场外引发了不小的争议。免费B站直播在线观看人数在哪
spider spider spider
扫一扫在手机打开当前页
spider spider spider