-
Notifications
You must be signed in to change notification settings - Fork 199
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
不能复现对论文里对moshi的评测 #141
Comments
请问你这里测试时,输入音频是采用什么TTS工具合成的呢呢?不同TTS工具分数也会不同。 |
火山引擎seed TTS 我现在推理时,moshi基本上只回复“How are you”类似的开场白,偶尔能在开场白之后正式回复 |
我这里尝试用meloTTS和chattts分别测试过开源出来的GLM-4-voice,比他们论文里的结果要高一些,比技术报告里的分数要低。在4.5分上下。 Moshi我还没测过,不过之前看过知乎的讨论,这个模型经常不能正常回答问题。这里的现象看起来是prompt mismatch了。 |
不知道你有没有测试过开源出来的GLM-4-voice的效果? |
复现了,和论文里的结果基本一致 |
指的是3.69这个指标吗? |
Moshi 的推理好像有些问题,我之前要给他们提过issue, 还没有官方回复,有人说开源和论文里的不一样kyutai-labs/moshi#159 |
谢谢,我估计可能是这个细节没对齐: 实测确实发现不少问英文,回答中文的case。 |
这个情况我在review case的时候发现了,但是论文里的这个限制有点不合理,不过也无伤大雅。 |
感谢开源👍🏻
在论文《Scaling speech-text pre-training with synthetic interleaved data》里
对moshi的评测,
其他模型的评测结果都可以复现,但是无法复现Moshi这个评测,可以分享下Moshi的推理吗?🙏🙏🙏
The text was updated successfully, but these errors were encountered: