-
Notifications
You must be signed in to change notification settings - Fork 48
Open
Description
背景与动机
Trinity-RFT 开发者您好!
我们正在使用 Trinity-RFT 框架进行一些关于多轮对话强化学习的研究。
已经利用Trinity-RFT在Qwen2.5-3B-Instruct上训练了一版模型。
需求描述
目前我们希望对原始的Qwen2.5-3B-Instruct,和训练后的模型进行评估。
但目前不确定Trinity-RFT框架能否直接用来评估,我注意到Trinity-RFT有bench模式,但没有找到与bench模式有关的教程。
考虑到训练和评估的workflow基本一致,如果Trinity-rft能直接用来评估,可以极大加速我们的评估过程,减少代码量
总结
我们希望对原始的Qwen2.5-3B-Instruct,和训练后的模型进行评估。
希望了解如何利用Trinity-RFT来评估。
如果Trinity-RFT的bench模式可以用来评估的话,有哪些注意点?如何使用呢?
Metadata
Metadata
Assignees
Labels
No labels