训练数据 #11

qingzwang · 2023-08-01T02:19:58Z

请问训练数据来自哪里呢？中文captioning的数据质量相对较差啊

GoGoJoestar · 2023-08-01T05:01:21Z

我们的预训练数据都来自可从网上下载的公开数据集。除了收集原生中文caption数据，我们还将一些公开的英文caption数据集的文本翻译成了中文。

qingzwang · 2023-08-01T05:06:46Z

具体有哪些中文captioning数据集呢？或者有公开文档可以看看么？感觉Taisu之类的数据集噪声很大，直接用这个数据集做captioning看不到效果。

zhongtao93 · 2023-12-18T10:55:11Z

+1，方便说一下是哪些公开数据集嘛，一共有多少量的数据呢

Provide feedback