请教Trinity-RFT的bench模式如何使用？

# 背景与动机
Trinity-RFT 开发者您好！
我们正在使用 Trinity-RFT 框架进行一些关于多轮对话强化学习的研究。
已经利用Trinity-RFT在Qwen2.5-3B-Instruct上训练了一版模型。
# 需求描述
目前我们希望对原始的Qwen2.5-3B-Instruct，和训练后的模型进行评估。
但目前不确定Trinity-RFT框架能否直接用来评估，我注意到Trinity-RFT有bench模式，但没有找到与bench模式有关的教程。
考虑到训练和评估的workflow基本一致，如果Trinity-rft能直接用来评估，可以极大加速我们的评估过程，减少代码量
# 总结
我们希望对原始的Qwen2.5-3B-Instruct，和训练后的模型进行评估。
希望了解如何利用Trinity-RFT来评估。
如果Trinity-RFT的bench模式可以用来评估的话，有哪些注意点？如何使用呢？






Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

请教Trinity-RFT的bench模式如何使用？ #482

背景与动机

需求描述

总结

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

请教Trinity-RFT的bench模式如何使用？ #482

Description

背景与动机

需求描述

总结

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions