diff --git a/evaluations/datastes/chart/text/eval.json b/evaluations/datastes/chart/text/eval.json
new file mode 100644
index 0000000..304c4fd
--- /dev/null
+++ b/evaluations/datastes/chart/text/eval.json
@@ -0,0 +1,107 @@
+[
+ {
+ "type": "text2chart",
+ "question": "2023年,全球气温平均值14.8°C,对比上个世纪末+1.2°C,变化率+8%。近年来,气候变化成为全球关注焦点,2023年的全球气温平均值达到了历史高点,与上个世纪末相比上升了8%,这一现象再次提醒我们加强环境保护的重要性。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "\"2023年,全球气温平均值14.8°C,对比上个世纪末1.2°C,变化率为+8%。近年来,气候变化成为全球关注焦点,2023年的全球气温平均值达到了历史高点,与上个世纪末相比上升了8%,这一现象再次提醒我们加强环境保护的重要性。",
+ "answer": "\"2023年,全球气温平均值14.8°C,对比上个世纪末1.2°C,变化率8%。近年来,气候变化成为全球关注焦点,2023年的全球气温平均值达到了历史高点,与上个世纪末相比上升了8%,这一现象再次提醒我们加强环境保护的重要性。\"",
+ "reference": [
+ "词云图 - WordCloud Chart 使用示例",
+ "数据文本 - Text 使用示例",
+ "思维导图 - Mind Map 使用示例",
+ "面积图 - Area Chart 使用示例"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "原文为:过去一年,网站访问量120万次,对比前一年+30万次,变化率+33%。在过去的一年里,我们的网站访问量有了显著的增长,与前一年相比增加了33%,这归功于新营销活动的成功执行和用户体验的持续改进。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "\"过去一年,网站访问量为120万次,对比前一年30万次,变化率33%。在过去的一年里,我们的网站访问量有了显著的增长,与前一年相比增加了33%,这归功于新营销活动的成功执行和用户体验的持续改进。\n\n",
+ "answer": "\"过去一年,网站访问量120万次,对比前一年30万次,变化率33%。在过去的一年里,我们的网站访问量有了显著的增长,与前一年相比增加了33%,这归功于新营销活动的成功执行和用户体验的持续改进。\"",
+ "reference": [
+ "折线图 - Line Chart 使用示例",
+ "数据文本 - Text 使用示例"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "用订单状态对产品回收率拆分后,根据皮尔逊相关系数分析指标相关性,已发货趋势分布与指标总趋势相似性最大,相似性系数为88.9%;已付款趋势分布与指标总趋势相似性最小,相似性系数为-53.0%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "用订单状态对产品回收率拆分后,根据皮尔逊相关系数分析指标相关性,已发货趋势分布与指标总趋势相似性最大,相似性系数为88.9%;已付款趋势分布与指标总趋势相似性最小,相似性系数为-53.0%。",
+ "answer": "\"用订单状态对产品回收率拆分后,根据皮尔逊相关系数分析指标相关性,已发货趋势分布与指标总趋势相似性最大,相似性系数为88.9%;已付款趋势分布与指标总趋势相似性最小,相似性系数为-53.0%。\"",
+ "reference": [
+ "[WIP]双轴图 - DualAxes Chart 适用场景",
+ "折线图 - Line Chart 使用示例",
+ "数据文本 - Text 使用示例"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "通过文本实体识别增强,将下面内容输出为增强 markdown 内容:用订单商品折扣、订单金额、商品尺寸对移动端访问量进行组合下钻: 1. 订单商品折扣组合中订单商品折扣=0.2指标值为8.95千亿,具有主导性,值得关注。该组合中最大值为53.5,最小值为26.26,均值为49.23,中位数为27.72,75分位数为31.92,25分位数为51.56。 2. 订单商品折扣、订单金额&商品尺寸,各维度组合下的指标未发现异常。",
+ "response": "用订单商品折扣、订单金额、商品尺寸对移动端访问量进行组合下钻: 1. 订单商品折扣组合中订单商品折扣=0.2指标值为8.95千亿,具有主导性,值得关注。该组合中最大值为53.5,最小值为26.26,均值为49.23,中位数为27.72,75分位数为31.92,25分位数为51.56。 2. 订单商品折扣、订单金额&商品尺寸,各维度组合下的指标未发现异常。 ",
+ "answer": "\"用订单商品折扣、订单金额、商品尺寸对移动端访问量进行组合下钻:\\n1. 订单商品折扣组合中订单商品折扣=0.2指标值为8.95千亿,具有主导性,值得关注。该组合中最大值为53.5,最小值为26.26,均值为49.23,中位数为27.72,75分位数为31.92,25分位数为51.56。 \\n2. 订单商品折扣、订单金额&商品尺寸,各维度组合下的指标未发现异常。\"",
+ "reference": [
+ "数据文本 - Text 使用示例"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "基于PROPHET算法预测,未来预计截止至2020-05-13,所有商品颜色数量的预测值保持快速上升,分别是:蓝色-预测值为0.88%,红色-预测值为-90.02%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "基于PROPHET算法预测,未来预计截止至2020-05-13,所有商品颜色数量的预测值保持快速上升,分别是:蓝色-预测值为0.88%,红色-预测值为-90.02%。\n\n",
+ "answer": "\"基于PROPHET算法预测,未来预计截止至2020-05-13,所有商品颜色数量的预测值保持快速上升,分别是:蓝色-预测值为0.88%,红色-预测值为-90.02%。\"",
+ "reference": [
+ "数据文本 - Text 使用示例"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "原文为:客户净推荐值根据等距分桶策略,桶数为57,步长为9.99百万。该样本最大值为151.56,最小值为1.07,均值为3.46,中位数为8.84,75分位数为6.89,25分位数为69.88,标准差为18。通过箱线图检测,趋势向好。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "客户净推荐值根据等距分桶策略,桶数为57,步长为9.99百万。该样本最大值为151.56,最小值为1.07,均值为3.46,中位数为8.84,75分位数为6.89,25分位数为69.88,标准差为18。通过箱线图检测,趋势向好。 ",
+ "answer": "\"客户净推荐值根据等距分桶策略,桶数为57,步长为9.99百万。该样本最大值为151.56,最小值为1.07,均值为3.46,中位数为8.84,75分位数为6.89,25分位数为69.88,标准差为18。通过箱线图检测,趋势向好。\"",
+ "reference": [
+ "折线图 - Line Chart 图表属性",
+ "数据文本 - Text 使用示例",
+ "面积图 - Area Chart 使用示例"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "在2023财年的财务报告中,我们注意到业务单元=B部门的运营成本显著上升,具体表现为+15%的增长幅度。这种增长不仅对运营成本的整体波动产生了25%的影响,而且直接拉动了运营成本的增幅达到3.7%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "在2023财年的财务报告中,我们注意到业务单元=B部门的运营成本显著上升,具体表现为+15%的增长幅度。这种增长不仅对运营成本的整体波动产生了25%的影响,而且直接拉动了运营成本的增幅达到3.7%。\n",
+ "answer": "\"在2023财年的财务报告中,我们注意到业务单元=B部门的运营成本显著上升,具体表现为15%的增长幅度。这种增长不仅对运营成本的整体波动产生了25%的影响,而且直接拉动了运营成本的增幅达到3.7%。\"",
+ "reference": [
+ "柱形图 - Column Chart 使用示例",
+ "数据文本 - Text 使用示例"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "今年第一季度,亚洲地区的在线教育平台用户数量已经突破至150,000,000人,与去年同期相比,增长率高达30%,显示出了远程学习的巨大潜力。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "今年第一季度,亚洲地区的在线教育平台用户数量已经突破至150,000,000人,与去年同期相比,增长率高达30%,显示出了远程学习的巨大潜力。\n\n ",
+ "answer": "\"今年第一季度,亚洲地区的在线教育平台用户数量已经突破至150,000,000人,与去年同期相比,增长率高达30%,显示出了远程学习的巨大潜力。\"",
+ "reference": [
+ "数据文本 - Text 使用示例",
+ "条形图 - Bar Chart 使用示例"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "本月整体决策准确率为87.6%,环比下降1.2个百分点,但仍高于年度目标2.6个百分点。财务部门表现最佳,准确率达94.3%;人力资源部门表现欠佳,准确率为76.8%,建议加强培训。数据驱动型决策的准确率(91.2%)显著高于经验驱动型决策(82.4%),凸显了数据分析的重要性。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "本月整体决策准确率为87.6%,环比下降1.2个百分点,但仍高于年度目标2.6个百分点。\n\n财务部门表现最佳,准确率达94.3%;人力资源部门表现欠佳,准确率为76.8%,建议加强培训。\n\n数据驱动型决策的准确率91.2%显著高于经验驱动型决策82.4%,凸显了数据分析的重要性。",
+ "answer": "\"本月整体决策准确率为87.6%,环比下降1.2个百分点,但仍高于年度目标2.6个百分点。财务部门表现最佳,准确率达94.3%;人力资源部门表现欠佳,准确率为76.8%,建议加强培训。数据驱动型决策的准确率(91.2%)显著高于经验驱动型决策(82.4%),凸显了数据分析的重要性。\"",
+ "reference": [
+ "词云图 - WordCloud Chart 不适用场景",
+ "数据文本 - Text 使用示例",
+ "直方图 - Histogram Chart 不适用场景"
+ ]
+ },
+ {
+ "type": "text2chart",
+ "question": "本季度的整体客户满意度评分为 4.2(满分 5 分),较上季度提升了 0.3 分。按客户生命周期阶段划分,新客户、成长期客户和成熟期客户的满意度评分分别为 3.9、4.3 和 4.5。服务类型方面,技术支持获得了最高的满意度评分 4.6,而产品培训的评分相对较低,为 3.8。通过分析,我们发现客户满意度与问题解决时间呈现负相关,平均问题解决时间从上季度的 48 小时缩短到了 36 小时,这可能是满意度提升的主要原因之一。此外,我们注意到通过在线聊天渠道解决问题的客户满意度普遍高于电话渠道,建议进一步优化在线支持系统。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "本季度的整体客户满意度评分为 4.2(满分 5 分),较上季度提升了 0.3 分。按客户生命周期阶段划分,新客户、成长期客户和成熟期客户的满意度评分分别为 3.9、4.3 和 4.5。服务类型方面,技术支持获得了最高的满意度评分 4.6,而产品培训的评分相对较低,为 3.8。通过分析,我们发现客户满意度与问题解决时间呈现负相关,平均问题解决时间从上季度的 48 小时 缩短到了 36 小时,这可能是满意度提升的主要原因之一。此外,我们注意到通过在线聊天渠道解决问题的客户满意度普遍高于电话渠道,建议进一步优化在线支持系统。",
+ "answer": "\"本季度的整体客户满意度评分为 4.2(满分 5分),较上季度提升了 0.3分。按客户生命周期阶段划分,新客户、成长期客户和成熟期客户的满意度评分分别为 3.9、4.3 和 4.5。服务类型方面,技术支持获得了最高的满意度评分 4.6,而产品培训的评分相对较低,为 3.8。通过分析,我们发现客户满意度与问题解决时间呈现负相关,平均问题解决时间从上季度的48小时缩短到了 36小时,这可能是满意度提升的主要原因之一。此外,我们注意到通过在线聊天渠道解决问题的客户满意度普遍高于电话渠道,建议进一步优化在线支持系统。\"",
+ "reference": [
+ "折线图 - Line Chart 使用示例",
+ "雷达图 - Radar Chart 使用示例",
+ "词云图 - WordCloud Chart 使用示例",
+ "数据文本 - Text 使用示例"
+ ]
+ }
+]
diff --git a/evaluations/datastes/chart/text/metrics.json b/evaluations/datastes/chart/text/metrics.json
new file mode 100644
index 0000000..cace9b7
--- /dev/null
+++ b/evaluations/datastes/chart/text/metrics.json
@@ -0,0 +1,117 @@
+[
+ {
+ "type": "text2chart",
+ "question": "2023年,全球气温平均值14.8°C,对比上个世纪末+1.2°C,变化率+8%。近年来,气候变化成为全球关注焦点,2023年的全球气温平均值达到了历史高点,与上个世纪末相比上升了8%,这一现象再次提醒我们加强环境保护的重要性。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "\"2023年,全球气温平均值14.8°C,对比上个世纪末1.2°C,变化率为+8%。近年来,气候变化成为全球关注焦点,2023年的全球气温平均值达到了历史高点,与上个世纪末相比上升了8%,这一现象再次提醒我们加强环境保护的重要性。",
+ "answer": "\"2023年,全球气温平均值14.8°C,对比上个世纪末1.2°C,变化率8%。近年来,气候变化成为全球关注焦点,2023年的全球气温平均值达到了历史高点,与上个世纪末相比上升了8%,这一现象再次提醒我们加强环境保护的重要性。\"",
+ "reference": [
+ "词云图 - WordCloud Chart 使用示例",
+ "数据文本 - Text 使用示例",
+ "思维导图 - Mind Map 使用示例",
+ "面积图 - Area Chart 使用示例"
+ ],
+ "correctness": 0.5639259014801932
+ },
+ {
+ "type": "text2chart",
+ "question": "原文为:过去一年,网站访问量120万次,对比前一年+30万次,变化率+33%。在过去的一年里,我们的网站访问量有了显著的增长,与前一年相比增加了33%,这归功于新营销活动的成功执行和用户体验的持续改进。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "\"过去一年,网站访问量为120万次,对比前一年30万次,变化率33%。在过去的一年里,我们的网站访问量有了显著的增长,与前一年相比增加了33%,这归功于新营销活动的成功执行和用户体验的持续改进。\n\n",
+ "answer": "\"过去一年,网站访问量120万次,对比前一年30万次,变化率33%。在过去的一年里,我们的网站访问量有了显著的增长,与前一年相比增加了33%,这归功于新营销活动的成功执行和用户体验的持续改进。\"",
+ "reference": [
+ "折线图 - Line Chart 使用示例",
+ "数据文本 - Text 使用示例"
+ ],
+ "correctness": 0.6232502388407516
+ },
+ {
+ "type": "text2chart",
+ "question": "用订单状态对产品回收率拆分后,根据皮尔逊相关系数分析指标相关性,已发货趋势分布与指标总趋势相似性最大,相似性系数为88.9%;已付款趋势分布与指标总趋势相似性最小,相似性系数为-53.0%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "用订单状态对产品回收率拆分后,根据皮尔逊相关系数分析指标相关性,已发货趋势分布与指标总趋势相似性最大,相似性系数为88.9%;已付款趋势分布与指标总趋势相似性最小,相似性系数为-53.0%。",
+ "answer": "\"用订单状态对产品回收率拆分后,根据皮尔逊相关系数分析指标相关性,已发货趋势分布与指标总趋势相似性最大,相似性系数为88.9%;已付款趋势分布与指标总趋势相似性最小,相似性系数为-53.0%。\"",
+ "reference": [
+ "[WIP]双轴图 - DualAxes Chart 适用场景",
+ "折线图 - Line Chart 使用示例",
+ "数据文本 - Text 使用示例"
+ ],
+ "correctness": 0.8421052631578946
+ },
+ {
+ "type": "text2chart",
+ "question": "通过文本实体识别增强,将下面内容输出为增强 markdown 内容:用订单商品折扣、订单金额、商品尺寸对移动端访问量进行组合下钻: 1. 订单商品折扣组合中订单商品折扣=0.2指标值为8.95千亿,具有主导性,值得关注。该组合中最大值为53.5,最小值为26.26,均值为49.23,中位数为27.72,75分位数为31.92,25分位数为51.56。 2. 订单商品折扣、订单金额&商品尺寸,各维度组合下的指标未发现异常。",
+ "response": "用订单商品折扣、订单金额、商品尺寸对移动端访问量进行组合下钻: 1. 订单商品折扣组合中订单商品折扣=0.2指标值为8.95千亿,具有主导性,值得关注。该组合中最大值为53.5,最小值为26.26,均值为49.23,中位数为27.72,75分位数为31.92,25分位数为51.56。 2. 订单商品折扣、订单金额&商品尺寸,各维度组合下的指标未发现异常。 ",
+ "answer": "\"用订单商品折扣、订单金额、商品尺寸对移动端访问量进行组合下钻:\\n1. 订单商品折扣组合中订单商品折扣=0.2指标值为8.95千亿,具有主导性,值得关注。该组合中最大值为53.5,最小值为26.26,均值为49.23,中位数为27.72,75分位数为31.92,25分位数为51.56。 \\n2. 订单商品折扣、订单金额&商品尺寸,各维度组合下的指标未发现异常。\"",
+ "reference": [
+ "数据文本 - Text 使用示例"
+ ],
+ "correctness": 0.947155405719913
+ },
+ {
+ "type": "text2chart",
+ "question": "基于PROPHET算法预测,未来预计截止至2020-05-13,所有商品颜色数量的预测值保持快速上升,分别是:蓝色-预测值为0.88%,红色-预测值为-90.02%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "基于PROPHET算法预测,未来预计截止至2020-05-13,所有商品颜色数量的预测值保持快速上升,分别是:蓝色-预测值为0.88%,红色-预测值为-90.02%。\n\n",
+ "answer": "\"基于PROPHET算法预测,未来预计截止至2020-05-13,所有商品颜色数量的预测值保持快速上升,分别是:蓝色-预测值为0.88%,红色-预测值为-90.02%。\"",
+ "reference": [
+ "数据文本 - Text 使用示例"
+ ],
+ "correctness": 0.7800134951599099
+ },
+ {
+ "type": "text2chart",
+ "question": "原文为:客户净推荐值根据等距分桶策略,桶数为57,步长为9.99百万。该样本最大值为151.56,最小值为1.07,均值为3.46,中位数为8.84,75分位数为6.89,25分位数为69.88,标准差为18。通过箱线图检测,趋势向好。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "客户净推荐值根据等距分桶策略,桶数为57,步长为9.99百万。该样本最大值为151.56,最小值为1.07,均值为3.46,中位数为8.84,75分位数为6.89,25分位数为69.88,标准差为18。通过箱线图检测,趋势向好。 ",
+ "answer": "\"客户净推荐值根据等距分桶策略,桶数为57,步长为9.99百万。该样本最大值为151.56,最小值为1.07,均值为3.46,中位数为8.84,75分位数为6.89,25分位数为69.88,标准差为18。通过箱线图检测,趋势向好。\"",
+ "reference": [
+ "折线图 - Line Chart 图表属性",
+ "数据文本 - Text 使用示例",
+ "面积图 - Area Chart 使用示例"
+ ],
+ "correctness": 0.8763463818528441
+ },
+ {
+ "type": "text2chart",
+ "question": "在2023财年的财务报告中,我们注意到业务单元=B部门的运营成本显著上升,具体表现为+15%的增长幅度。这种增长不仅对运营成本的整体波动产生了25%的影响,而且直接拉动了运营成本的增幅达到3.7%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "在2023财年的财务报告中,我们注意到业务单元=B部门的运营成本显著上升,具体表现为+15%的增长幅度。这种增长不仅对运营成本的整体波动产生了25%的影响,而且直接拉动了运营成本的增幅达到3.7%。\n",
+ "answer": "\"在2023财年的财务报告中,我们注意到业务单元=B部门的运营成本显著上升,具体表现为15%的增长幅度。这种增长不仅对运营成本的整体波动产生了25%的影响,而且直接拉动了运营成本的增幅达到3.7%。\"",
+ "reference": [
+ "柱形图 - Column Chart 使用示例",
+ "数据文本 - Text 使用示例"
+ ],
+ "correctness": 0.7604312428023119
+ },
+ {
+ "type": "text2chart",
+ "question": "今年第一季度,亚洲地区的在线教育平台用户数量已经突破至150,000,000人,与去年同期相比,增长率高达30%,显示出了远程学习的巨大潜力。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "今年第一季度,亚洲地区的在线教育平台用户数量已经突破至150,000,000人,与去年同期相比,增长率高达30%,显示出了远程学习的巨大潜力。\n\n ",
+ "answer": "\"今年第一季度,亚洲地区的在线教育平台用户数量已经突破至150,000,000人,与去年同期相比,增长率高达30%,显示出了远程学习的巨大潜力。\"",
+ "reference": [
+ "数据文本 - Text 使用示例",
+ "条形图 - Bar Chart 使用示例"
+ ],
+ "correctness": 0.8006407690254358
+ },
+ {
+ "type": "text2chart",
+ "question": "本月整体决策准确率为87.6%,环比下降1.2个百分点,但仍高于年度目标2.6个百分点。财务部门表现最佳,准确率达94.3%;人力资源部门表现欠佳,准确率为76.8%,建议加强培训。数据驱动型决策的准确率(91.2%)显著高于经验驱动型决策(82.4%),凸显了数据分析的重要性。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "本月整体决策准确率为87.6%,环比下降1.2个百分点,但仍高于年度目标2.6个百分点。\n\n财务部门表现最佳,准确率达94.3%;人力资源部门表现欠佳,准确率为76.8%,建议加强培训。\n\n数据驱动型决策的准确率91.2%显著高于经验驱动型决策82.4%,凸显了数据分析的重要性。",
+ "answer": "\"本月整体决策准确率为87.6%,环比下降1.2个百分点,但仍高于年度目标2.6个百分点。财务部门表现最佳,准确率达94.3%;人力资源部门表现欠佳,准确率为76.8%,建议加强培训。数据驱动型决策的准确率(91.2%)显著高于经验驱动型决策(82.4%),凸显了数据分析的重要性。\"",
+ "reference": [
+ "词云图 - WordCloud Chart 不适用场景",
+ "数据文本 - Text 使用示例",
+ "直方图 - Histogram Chart 不适用场景"
+ ],
+ "correctness": 0.5723667006740041
+ },
+ {
+ "type": "text2chart",
+ "question": "本季度的整体客户满意度评分为 4.2(满分 5 分),较上季度提升了 0.3 分。按客户生命周期阶段划分,新客户、成长期客户和成熟期客户的满意度评分分别为 3.9、4.3 和 4.5。服务类型方面,技术支持获得了最高的满意度评分 4.6,而产品培训的评分相对较低,为 3.8。通过分析,我们发现客户满意度与问题解决时间呈现负相关,平均问题解决时间从上季度的 48 小时缩短到了 36 小时,这可能是满意度提升的主要原因之一。此外,我们注意到通过在线聊天渠道解决问题的客户满意度普遍高于电话渠道,建议进一步优化在线支持系统。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "response": "本季度的整体客户满意度评分为 4.2(满分 5 分),较上季度提升了 0.3 分。按客户生命周期阶段划分,新客户、成长期客户和成熟期客户的满意度评分分别为 3.9、4.3 和 4.5。服务类型方面,技术支持获得了最高的满意度评分 4.6,而产品培训的评分相对较低,为 3.8。通过分析,我们发现客户满意度与问题解决时间呈现负相关,平均问题解决时间从上季度的 48 小时 缩短到了 36 小时,这可能是满意度提升的主要原因之一。此外,我们注意到通过在线聊天渠道解决问题的客户满意度普遍高于电话渠道,建议进一步优化在线支持系统。",
+ "answer": "\"本季度的整体客户满意度评分为 4.2(满分 5分),较上季度提升了 0.3分。按客户生命周期阶段划分,新客户、成长期客户和成熟期客户的满意度评分分别为 3.9、4.3 和 4.5。服务类型方面,技术支持获得了最高的满意度评分 4.6,而产品培训的评分相对较低,为 3.8。通过分析,我们发现客户满意度与问题解决时间呈现负相关,平均问题解决时间从上季度的48小时缩短到了 36小时,这可能是满意度提升的主要原因之一。此外,我们注意到通过在线聊天渠道解决问题的客户满意度普遍高于电话渠道,建议进一步优化在线支持系统。\"",
+ "reference": [
+ "折线图 - Line Chart 使用示例",
+ "雷达图 - Radar Chart 使用示例",
+ "词云图 - WordCloud Chart 使用示例",
+ "数据文本 - Text 使用示例"
+ ],
+ "correctness": 0.5691744065414986
+ }
+]
diff --git a/evaluations/datastes/chart/text/test.json b/evaluations/datastes/chart/text/test.json
new file mode 100644
index 0000000..92fd397
--- /dev/null
+++ b/evaluations/datastes/chart/text/test.json
@@ -0,0 +1,52 @@
+[
+ {
+ "type": "text2chart",
+ "question": "2023年,全球气温平均值14.8°C,对比上个世纪末+1.2°C,变化率+8%。近年来,气候变化成为全球关注焦点,2023年的全球气温平均值达到了历史高点,与上个世纪末相比上升了8%,这一现象再次提醒我们加强环境保护的重要性。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "2023年,全球气温平均值14.8°C,对比上个世纪末1.2°C,变化率8%。近年来,气候变化成为全球关注焦点,2023年的全球气温平均值达到了历史高点,与上个世纪末相比上升了8%,这一现象再次提醒我们加强环境保护的重要性。"
+ },
+ {
+ "type": "text2chart",
+ "question": "原文为:过去一年,网站访问量120万次,对比前一年+30万次,变化率+33%。在过去的一年里,我们的网站访问量有了显著的增长,与前一年相比增加了33%,这归功于新营销活动的成功执行和用户体验的持续改进。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "过去一年,网站访问量120万次,对比前一年30万次,变化率33%。在过去的一年里,我们的网站访问量有了显著的增长,与前一年相比增加了33%,这归功于新营销活动的成功执行和用户体验的持续改进。"
+ },
+ {
+ "type": "text2chart",
+ "question": "用订单状态对产品回收率拆分后,根据皮尔逊相关系数分析指标相关性,已发货趋势分布与指标总趋势相似性最大,相似性系数为88.9%;已付款趋势分布与指标总趋势相似性最小,相似性系数为-53.0%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "用订单状态对产品回收率拆分后,根据皮尔逊相关系数分析指标相关性,已发货趋势分布与指标总趋势相似性最大,相似性系数为88.9%;已付款趋势分布与指标总趋势相似性最小,相似性系数为-53.0%。"
+ },
+ {
+ "type": "text2chart",
+ "question": "通过文本实体识别增强,将下面内容输出为增强 markdown 内容:用订单商品折扣、订单金额、商品尺寸对移动端访问量进行组合下钻: 1. 订单商品折扣组合中订单商品折扣=0.2指标值为8.95千亿,具有主导性,值得关注。该组合中最大值为53.5,最小值为26.26,均值为49.23,中位数为27.72,75分位数为31.92,25分位数为51.56。 2. 订单商品折扣、订单金额&商品尺寸,各维度组合下的指标未发现异常。",
+ "answer": "用订单商品折扣、订单金额、商品尺寸对移动端访问量进行组合下钻:\n1. 订单商品折扣组合中订单商品折扣=0.2指标值为8.95千亿,具有主导性,值得关注。该组合中最大值为53.5,最小值为26.26,均值为49.23,中位数为27.72,75分位数为31.92,25分位数为51.56。 \n2. 订单商品折扣、订单金额&商品尺寸,各维度组合下的指标未发现异常。"
+ },
+ {
+ "type": "text2chart",
+ "question": "基于PROPHET算法预测,未来预计截止至2020-05-13,所有商品颜色数量的预测值保持快速上升,分别是:蓝色-预测值为0.88%,红色-预测值为-90.02%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "基于PROPHET算法预测,未来预计截止至2020-05-13,所有商品颜色数量的预测值保持快速上升,分别是:蓝色-预测值为0.88%,红色-预测值为-90.02%。"
+ },
+ {
+ "type": "text2chart",
+ "question": "原文为:客户净推荐值根据等距分桶策略,桶数为57,步长为9.99百万。该样本最大值为151.56,最小值为1.07,均值为3.46,中位数为8.84,75分位数为6.89,25分位数为69.88,标准差为18。通过箱线图检测,趋势向好。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "客户净推荐值根据等距分桶策略,桶数为57,步长为9.99百万。该样本最大值为151.56,最小值为1.07,均值为3.46,中位数为8.84,75分位数为6.89,25分位数为69.88,标准差为18。通过箱线图检测,趋势向好。"
+ },
+ {
+ "type": "text2chart",
+ "question": "在2023财年的财务报告中,我们注意到业务单元=B部门的运营成本显著上升,具体表现为+15%的增长幅度。这种增长不仅对运营成本的整体波动产生了25%的影响,而且直接拉动了运营成本的增幅达到3.7%。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "在2023财年的财务报告中,我们注意到业务单元=B部门的运营成本显著上升,具体表现为15%的增长幅度。这种增长不仅对运营成本的整体波动产生了25%的影响,而且直接拉动了运营成本的增幅达到3.7%。"
+ },
+ {
+ "type": "text2chart",
+ "question": "今年第一季度,亚洲地区的在线教育平台用户数量已经突破至150,000,000人,与去年同期相比,增长率高达30%,显示出了远程学习的巨大潜力。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "今年第一季度,亚洲地区的在线教育平台用户数量已经突破至150,000,000人,与去年同期相比,增长率高达30%,显示出了远程学习的巨大潜力。"
+ },
+ {
+ "type": "text2chart",
+ "question": "本月整体决策准确率为87.6%,环比下降1.2个百分点,但仍高于年度目标2.6个百分点。财务部门表现最佳,准确率达94.3%;人力资源部门表现欠佳,准确率为76.8%,建议加强培训。数据驱动型决策的准确率(91.2%)显著高于经验驱动型决策(82.4%),凸显了数据分析的重要性。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "本月整体决策准确率为87.6%,环比下降1.2个百分点,但仍高于年度目标2.6个百分点。财务部门表现最佳,准确率达94.3%;人力资源部门表现欠佳,准确率为76.8%,建议加强培训。数据驱动型决策的准确率(91.2%)显著高于经验驱动型决策(82.4%),凸显了数据分析的重要性。"
+ },
+ {
+ "type": "text2chart",
+ "question": "本季度的整体客户满意度评分为 4.2(满分 5 分),较上季度提升了 0.3 分。按客户生命周期阶段划分,新客户、成长期客户和成熟期客户的满意度评分分别为 3.9、4.3 和 4.5。服务类型方面,技术支持获得了最高的满意度评分 4.6,而产品培训的评分相对较低,为 3.8。通过分析,我们发现客户满意度与问题解决时间呈现负相关,平均问题解决时间从上季度的 48 小时缩短到了 36 小时,这可能是满意度提升的主要原因之一。此外,我们注意到通过在线聊天渠道解决问题的客户满意度普遍高于电话渠道,建议进一步优化在线支持系统。通过文本实体识别增强,输出增强 markdown 内容为:",
+ "answer": "本季度的整体客户满意度评分为 4.2(满分 5分),较上季度提升了 0.3分。按客户生命周期阶段划分,新客户、成长期客户和成熟期客户的满意度评分分别为 3.9、4.3 和 4.5。服务类型方面,技术支持获得了最高的满意度评分 4.6,而产品培训的评分相对较低,为 3.8。通过分析,我们发现客户满意度与问题解决时间呈现负相关,平均问题解决时间从上季度的48小时缩短到了 36小时,这可能是满意度提升的主要原因之一。此外,我们注意到通过在线聊天渠道解决问题的客户满意度普遍高于电话渠道,建议进一步优化在线支持系统。"
+ }
+]
diff --git a/evaluations/prompts/narrative-text/agent.md b/evaluations/prompts/narrative-text/agent.md
new file mode 100644
index 0000000..85c9afb
--- /dev/null
+++ b/evaluations/prompts/narrative-text/agent.md
@@ -0,0 +1,46 @@
+# prompt
+
+# 角色:
+
+你擅长识别数据描述文本中不同实体类别的短语,并用 markdown 的标签将他们标识出来,使一段数据文本中重点信息更加突出、易于理解。
+
+## 任务:
+
+- **数据文本样式优化**:优化问题中描述数据文本的样式呈现,优化策略如下:提取实体短语的类型(例如指标名称(metric_name)、趋势描述 (trend_desc)、时间描述 (time_desc)、变化差值(delta_value)等)使用 标签标注,得到重点信息更明确的 markdown 内容作为回答。
+
+## 技能:
+
+- 能够根据数据文本描述内容,识别其中的不同类型的短语,对重要短语进行标注,从而优化数据描述的样式呈现。
+
+## 工作流程:
+
+1. **识别实体短语类型**:从用户给的数据描述文本中,识别和提取短语实体类型,现在内置的有:
+ 1. **metric_name**: 指标名称,通常是数据分析中主指标的名称,例如:“单价”,“DAU”,"交易量",“毛利率”等;
+ 2. **dim_name**: 维度名称,通常表达数据分析中可以拆分下钻的维度,例如:“省份”,“城市”,“年龄”,“性别”等;
+ 3. **dim_value**: 维度值,下钻维度拆分后的值,例如:“北京”,“女性”,“中年”,“支付宝”等;
+ 4. **metric_value**: 指标值,通常跟在主指标 metric_name 或者维度值 dim_value 后面,表示指标具体的数值大小,例如:“1000”,“100 万”,“10%”等;
+ 5. **time_desc**: 时间描述,通常限定数据结论的日期范围,比如"2022 年","去年","12 点 03 分","2023-01-23"等;
+ 6. **trend_desc**: 趋势描述,通常在主指标 metric_name 后面,描述指标的变化趋势,例如:"上涨", "下跌","下降"等;
+ 7. **delta_value**: 变化差值,一种特殊的指标值,用于描述对比差值 a-b,如上涨 3000,此时 3000 属于变化差值。如果数值为正,类型为 'delta_value_pos',如果数值为负,类型为 'delta_value_neg',无法识别正负值时为 'delta_value'。同时文本内容(children)需要进行 abs 处理为绝对值;
+ 8. **ratio_value**: 比率值,类似 delta_value,一种特殊的指标值,用于描述对比率 (a-b)/b,如上涨 30%,此时 30% 属于变化率。如果数值为正,类型为 'ratio_value_pos',如果数值为负,类型为 'ratio_value_neg',无法识别正负值时用 'ratio_value'。同时文本内容(children)需要进行 abs 处理为绝对值;
+ 9. **proportion**: 占比,也是一种特殊的指标值,表示该指标占总体的比例,通常为百分比数值,跟在“占比”等语义后面的指标,例如:"22%";
+ 10. **contribute_ratio**: 贡献度,表示维值或子指标变化对主指标变化的贡献,跟随在 “贡献度”后面的百分比数据,例如:如“贡献度是22%”,则此时22%归为贡献度。
+ 11. **phenomenon**: 数据现象的总结与建议,对数据表现情况的分析总结或给用户的行动建议。例如“未发现异常”,“趋势向好”。
+2. **标记短语类型**:将文本中提取到的短语类型,使用 的形式包裹,其中 type 是上述短语类型,标签内部为原短语文本值。origin: 可选,可以是任意类型,用于存储原始数据,比如未经格式化的指标值、占比、趋势详情等,如 1789.23, 0.34, [1, 2, 6, 18, 24, 48] 等;
+3. **生成完整 markdown 格式**:将经过标记短语类型的文本,输出为增强 markdown 格式,可以进行段落排版,文本内容不发生变化,。
+
+## 限制:
+
+- 输出 markdown 格式的回答结果,回答和输入相比,除了标注出识别出的实体短语外,内容本身不要发生变化,不需要额外附加信息和解释。
+
+
+## 参考例子:
+- 用户输入: 其中,该项维值组合下 平均客单价 为11.53,对主指标波动的贡献度是64.02%,对主指标的拉动为2.66%。
+- 回答: 其中,该项维值组合下 平均客单价 为11.53,对主指标波动的贡献度是64.02%,对主指标的拉动为2.66%。
+- 用户输入: 该项维值组合下分母占总体分母的比例为0.00%,对主指标波动的贡献度是-0.40%,对主指标的拉动为-0.02%。
+- 回答: 该项维值组合下分母占总体分母的比例为0.00%,对主指标波动的贡献度是-0.40%,对主指标的拉动为0.02%。
+- 用户输入: 第一季度末,GDP增长率达到2.8%,相较于之前的3.1%,环比下降了0.3%。同时,与上周同期相比,失业率下降了0.2%。
+- 回答: 第一季度末,GDP增长率达到2.8%,相较于之前的3.1%,环比下降了0.3%。同时,与上周同期相比,失业率下降了0.2%。
+- 用户输入:用客户性别对销售量拆分后,根据皮尔逊相关系数分析指标相关性,男趋势分布与指标总趋势相似性最大,相似性系数为99.54%;女趋势分布与指标总趋势相似性最小,相似性系数为99.54%。
+- 回答:用客户性别对销售量拆分后,根据皮尔逊相关系数分析指标相关性,男趋势分布与指标总趋势相似性最大,相似性系数为99.54%;女趋势分布与指标总趋势相似性最小,相似性系数为99.54%。
+
diff --git a/evaluations/prompts/narrative-text/text2chart.md b/evaluations/prompts/narrative-text/text2chart.md
new file mode 100644
index 0000000..c4b721a
--- /dev/null
+++ b/evaluations/prompts/narrative-text/text2chart.md
@@ -0,0 +1,64 @@
+## 角色
+
+你是一个 mock 数据解读文本生成器,生成问答对,问题为数据现象描述的纯文本,回答为经过实体识别后的增强 markdown 内容。
+
+## 任务
+
+1. 随机结合数据解读场景,用自然语言纯文本描述一段数据现象的描述和分析解读,比如: “根据预测,专家估计到 2030 年这些国家 GDP 将达到,美国 GDP 750 万亿,印度 GDP 420 万亿,英国 GDP 420 万亿,中国 GDP 700 万亿。用富文本增强展示上述数据解读”
+2. 优化问题中描述数据文本的样式呈现,优化策略如下:提取实体短语的类型(例如指标名称(metric_name)、趋势描述 (trend_desc)、时间描述 (time_desc)、变化差值(delta_value)等,完整实体短语类型参考知识库)使用 标签标注,得到重点信息更明确的 markdown 内容作为回答。
+3. 以 JSON 格式归纳为一条问答对数据,{"question": <数据现象和洞察描述>,"answer": <数据文本对应的增强 markdown 内容>}
+4. 生成的数据要求:参考所给模版的句式和内容生成,文案不可太短,100字以上,整体数据要覆盖全知识库数据要求中给出的实体短语类型,文案贴近专业数据分析报告中的用语和数据现象描述。"answer" 和 "question" 相比,除了展示样式有变化外,文字内容本身不要发生变化。
+
+## 数据文本知识库
+
+### 图表 Spec
+
+```markdown
+{children}
+```
+
+### 数据要求
+
+
+
+
+- type: 短语实体类型,现在内置的有:
+ 1. **metric_name**: 指标名称,通常是句子的主语,数据分析中主指标的名称,例如:“单价”,“DAU”,"交易量",“毛利率”等;
+ 2. **dim_name**: 维度名称,通常是句子的主语或者宾语,表达数据分析中可以拆分下钻的维度,例如:“省份”,“城市”,“年龄”,“性别”等;
+ 3. **dim_value**: 维度值,通常是句子的主语、宾语或者定语,例如:“北京”,“女性”,“中年”,“支付宝”等;
+ 4. **metric_value**: 指标值,通常作为句子的宾语,跟在主指标 metric_name 或者维度值 dim_value 后面,例如:“1000”,“100 万”,“10%”等;
+ 5. **time_desc**: 时间描述,通常在句子的最开始,限定数据结论的日期范围,比如"2022 年","去年","12 点 03 分","2023-01-23"等;
+ 6. **trend_desc**: 趋势描述,通常作为句子的宾语,在主指标 metric_name 后面,例如:"上涨", "下跌","下降"等;
+ 7. **delta_value**: 变化差值,一种特殊的指标值,用于描述对比差值 a-b,如上涨 3000,此时 3000 属于变化差值。如果数值为正,类型为 'delta_value_pos',如果数值为负,类型为 'delta_value_neg',无法识别正负值时为 'delta_value'。同时文本内容(children)需要进行 abs 处理为绝对值;
+ 8. **ratio_value**: 比率值,类似 delta_value,一种特殊的指标值,用于描述对比率 (a-b)/b,如上涨 30%,此时 30% 属于变化率。如果数值为正,类型为 'ratio_value_pos',如果数值为负,类型为 'ratio_value_neg',无法识别正负值时用 'ratio_value'。同时文本内容(children)需要进行 abs 处理为绝对值;
+ 9. **proportion**: 占比,也是一种特殊的指标值,表示该指标占总体的比例,通常为百分比数值,跟在“占比”等语义后面的指标,例如:"22%";
+ 10. **contribute_ratio**: 贡献度,表示维值或子指标变化对主指标变化的贡献,跟随在 “贡献度”后面的百分比数据,例如:如“贡献度是22%”,则此时22%归为贡献度。
+ 11. **phenomenon**: 数据现象的总结与建议,对数据表现情况的分析总结或给用户的行动建议。例如“未发现异常”,“趋势向好”。
+- origin: 可选,可以是任意类型,用于存储原始数据,比如未经格式化的指标值、占比、趋势详情等,如 1789.23, 0.34, [1, 2, 6, 18, 24, 48] 等;
+
+## 参考例子
+
+```json
+[
+ {
+ "type": "text2chart",
+ "question": "第一季度末,GDP增长率达到2.8%,相较于之前的3.1%,环比下降了0.3%。同时,与上周同期相比,失业率下降了0.2%。",
+ "answer": "第一季度末,GDP增长率达到2.8%,相较于之前的3.1%,环比下降了0.3%。同时,与上周同期相比,失业率下降了0.2%。"
+ },
+ {
+ "type": "text2chart",
+ "question": "用客户性别对销售量拆分后,根据皮尔逊相关系数分析指标相关性,男趋势分布与指标总趋势相似性最大,相似性系数为99.54%;女趋势分布与指标总趋势相似性最小,相似性系数为99.54%。",
+ "answer": "用客户性别对销售量拆分后,根据皮尔逊相关系数分析指标相关性,男趋势分布与指标总趋势相似性最大,相似性系数为99.54%;女趋势分布与指标总趋势相似性最小,相似性系数为99.54%。"
+ },
+]
+
+
+## 要求
+
+- 请生成 10 条这样的记录,并以 JSON 格式输出。