这是天池众智平台上的一道赛题:链接,本方案取得了第一名的成绩,解决方案和代码现整理开源。
存放原始的数据文件,包括:
- 训练数据,
draft_data_train.csv
,param_data_train.csv
,timevarying_param_train.csv
- 旧测试数据,
draft_data_test.csv
,param_data_test.csv
,timevarying_param_test.csv
- 新测试数据,
draft_data_test_new.csv
,param_data_test_new.csv
,timevarying_param_test_new.csv
-
plot_scatter.py
,画散点图 -
feature_extract.py
,提取特征,在data
目录下生成feature
目录,存放特征文件
xgb_gt98.py
,训练xgboost分类器,判断product_no
的key_index
是否大于0.98xgb_lt92.py
,训练xgboost分类器,判断product_no
的key_index
是否小于0.92
-
old_testset
目录all
目录all_xgb.py
,使用了所有特征训练的xgboost,做了特征选择all_dart.py
,使用了所有特征训练的dart,做了特征选择
half
目录xgb.py
,使用了加工进度50%之前的特征训练的xgboost
draft
目录dart.py
,使用draft_param
特征训练的dart
gen_submission.py
,生成提交文件
-
new_testset
目录dp_xgb.py
,使用draft_param
和param
两种特征训练的xgboostdp_dart.py
,使用draft_param
和param
两种特征训练的dartdp_rf.py
,使用draft_param
和param
两种特征训练的rfd_xgb.py
,使用draft_param
特征训练的xgboostd_rf.py
,使用draft_param
特征训练的rfgen_submission.py
,生成提交文件,融合了旧测试数据的结果。根据题目要求,分draft
、half
、all
三种预测。
-
post_process.py
,使用分类模型的预测结果,对回归预测的结果进行后处理
recommend.py
,推荐三组工艺可调参数的预设值recommend_every_product.py
,针对特定的工艺不可调整参数,对工艺可调参数进行推荐