概括提高了47%!第一个意图检测奖励范式,这是
发布时间:2025-05-17 10:16编辑:365bet网址浏览(150)
随着大型模型(LLM)的快速发展以及集成工具的爆炸性增长,Smart AI帮助者可以在日常生活中提供越来越多的舒适度,包括辅助功能,例如预订机票和时间来检查传统的基于任务的对话,但也增加了无数AIS,例如AI绘图功能。在下游工具链中,数学问题,游戏技术等是实施这些功能的第一步,其重要性是自我兴趣的。但是,工具之间关系的快速重复,多样性和复杂性也带来了新的挑战,即认识意图,即模型衰减在处理新目标时的衰减。重要的是要在Light LLM的开放资源中训练更时尚和稳定的识别模型,以便模型可以更准确地了解无形场景的目的。最近,Tencen的研究团队T PCG社会线使用增强培训方法来解决此问题,并使用小组相对政策优化(GRPO)算法以及基于奖励的课程抽样策略(RCS)结合使用,以创新的方式将其应用于该意图,从而显着提高模型在未知的意图中的范围,并促进了越来越多的模型,并促进了越来越多的一般性探索工具,并促进了一定的一般性,并促进了一项工具,从而促进了工具的一般性,从而促进了一项工具,从而促进了一定的工具,并将其促进范围。 认出。纸张标题:意图发现的改进:具有奖励基于奖励的采样纸链接的GRPO:https://www.arxiv.org/abs/2504.13592基于研究研究的研究意图,该团队已经执行了大量实验,以深入分析此任务中GRPO AlgorithM的好处。这项工作的贡献主要是以下四个方面:1。团队表明,通过研究加固训练的模型(RL)明显优于模型火车D由管理的微调(SFT)就难以想象的发现的性能泛化而言,这反映了跨语言意图和能力。值得一提的是,除了全新的无法解释的目标外,这项工作还比较了在实际产品情况(例如划分和整合良好的意图)中遇到的实际问题。2。该团队通过基于奖励的课程策略进一步增强了GRPO培训的影响,该策略有效地指导该模型在培训过程中专注于更具挑战性的例子。 3。在教育教育过程中的思考引入显着提高了一般通用模型在发现目标时的复杂任务中的能力。这一发现表明,在更具挑战性的场景中,思维将改善模型强度的一般力量很重要。 4。小组发现,在认识意图的任务中,是否预处理(预处理)模型OR教学微型调整模型被选为基础,在GRPO训练相同旋转后,两者的性能相似。该结果与传统培训经验不同。奖励针对研究强化目的的奖励的方式。该团队的指南来自两个维度:奖励和准确性的奖励:奖励的每个部分都是重量系数。格式奖励:基于及时模板的说明的指示,模型的输出格式受到了严格的防止。准确性的奖励并准确地匹配了True Label ::基于发现目标的准确性的二进制奖励函数,可以从模型的输出中获得,并且基于预测目的的课程。团队使用学习课程的想法分两个步骤训练模型。对离线数据进行分类,团队通过离线程序对所有数据的难度进行了分类。在特定过程中,首先进行完整的GRPO程序,并记录每个数据的奖励。如下公式所示,奖励ng每条数据用作难度标记:其中g是样本总数。课程在课程学习过程中,第一阶段对所有数据进行培训,直到模型通常转换为止。第二阶段是将其作为保留数据作为训练的困难样本进行了拍摄。这种顽固的方法有助于模型更好地关注容易出现第二阶段错误的困难数据。实验:RL将帮助模型理解任务,而不是模仿工作实验设置:数据集:团队进行了两个基准:Todassistant(由syperchinese数据集开发)和Multiwoz2.2(公共英语数据集)。 MultiWoz2.2数据集是一个公共TOD任务数据集,研究团队在那里获得了故意的分类工作。模型选择:团队选择QWEN2.5-7B-INSTRUKTAN模型作为基础MODEL分别训练了SFT方法和GRPO方法的同一时期,以比较模型性能。分析指标:使用精度评估意图的准确性。 GRPO方法与SFT方法之间的比较:研究团队首先比较SFT方法和GRPO方法。直接使用原始的GRPO方法,该模型可以在识别意图的任务中实现相似的SFT性能,并在Multiwoz2.2数据集中以英语实现与SFT模型相同的性能,这证实了这项工作中GRPO方法的有效性。为了进一步探索GRPO的好处,由Panana Group审查了该模型的整体模型。具体而言,在多沃兹数据集中,在训练过程中删除了测试集中的每个类别。在Todassistant数据集中,将原始类别组合在一起并分开以获取新类别,以验证新类别中模型的准确性;球队的跨语言团队ALSo尝试尝试(在中文测试集中在英语数据集中训练的模型结果)。实验结果表明,GRPO方法比SFT方法具有更好的概括性能。 RCS方法的实验结果:在此基础上,研究团队甚至应用RCS方法进行实验。结果表明,在课程研究的第一阶段,该模型转化为类似于原始GRPO方法的精确度;在困难样本筛选过程的第二阶段之后,模型的准确性得到了进一步提高。在整个过程的第二阶段中,团队对困难样本与正常培训数据的比率进行了实验,以及随机混合样品与其他培训数据一起训练。结果表明,仅通过训练困难样本来实现最佳结果。思维对培训过程的影响:研究小组还探讨了思考结果对ACTI的影响打算从逻辑上识别的村庄。该团队发现,思维在这类任务中也起着关键作用:思考对于改善跨种植者的数据尤其重要;在Multiwoz2.2DataSet中,模型的性能在删除思想后大大下降。在这项工作中,预处理模型与教学模型之间的差异:研究团队发现,在认识到目的的任务下,选择了预处理模型或教学模型作为基础,在GRPO培训同时,它可以团结起来的性能,这与传统培训经验有所不同。同时,团队还发现,指令模型的长度在宽松格式和严格的格式奖励下保持稳定。但是,预处理模型的生成长度首先减小,然后在格式的宽松奖励下上升,而在严格的格式奖励下没有趋势。值得注意的是,lengt的增加H不提供有效的信息。 PITHIS比较表明,类似R1的增强研究实践该模型通过增加输出长度来获得更高的奖励,但是由于发现目标的相对简单任务,因此很难出现真正的“ Epiphany Moment”。 Future Outlook 1。在线数据筛选方法:团队的RCS数据筛选方法仍处于离线状态,在随后的工作中将探索更好的在线筛选方法。 2。多意义识别:研究认可团队中的实验目前主要针对团结方案,并将继续探索对许多后续目标的认可。 3.扩展与与对话相关的对话相关的任务:当前,通过GSINTRODUCE有意识别进行团队实验,在将来的工作中,他们将继续测试与基于任务的对话有关的更复杂的任务。