Skip to content

Latest commit

 

History

History
102 lines (53 loc) · 5.44 KB

File metadata and controls

102 lines (53 loc) · 5.44 KB

菜鸟-需求预测与分仓规划

天池大数据竞赛平台上的一道赛题,赛题详情

队伍

  • 队名:左手诗句,右手数据

  • 成员:wepon,Bryan,逝水无痕

解決方案简述

  • 由于原始数据只有1000个item,为了生成更多的训练样本,我们采用了滑窗法,每两周(14天)作为一个窗口,该窗口各个(item,store_ code)的总销量作为label,特征的产生方式如下:统计该窗口前1/2/3/5/7/9/11/14天的各种非类目特征的sum和avg,统计item_id在最近14天的非聚划算支付件数最大值、最小值、标准差,统计其他类目id在最近14天的非聚划算支付件数的sum,avg,std

  • 基于以上构建的训练集,训练了多个回归模型,包括:XGboost、GBDT、RandomForest、SVR(线性核与高斯核),训练时各个分仓是分别建模的,值得一提的是我们将(补少成本+补多成本)作为每个样本的权重(代价敏感学习),在验证集上降低了10多万成本(相比于不设置权重)。此外也训练了时序模型ARIMA。

  • 在得到单模型结果后,再根据补多补少成本进行融合。举例来说,如果某个(item,store_ code)的补少成本大于补多成本,则我们倾向于预测多一点,故取单模型预测结果中的最大值再乘以1.1,反之取单模型预测结果中的最小值再乘以0.9。得到该结果后,与规则进行加权融合,融合系数为0.75model + 0.25rule

  • 规则:预测窗口前两周的销量分别记作week1,week2,对每个(item,store_ code),如果补少成本大于补多成本,则预测为2* max(week1,week2),反之预测为2* min(week1,week2)

  • 单纯规则线上为99万,通过 0.75model + 0.25rule的融合后线上为88万,通过线下验证集计算各个(item,store_ code)的代价,发现全国的一些item产生的代价非常大,Top20个样本产生了大约20万的成本。对其进一步可视化分析,发现大多是上线时间比较短,或者是预测窗口前几周销量波动比较大的item。对这部分item,模型的预测效果非常差,所以我们直接用这些item前两周的销量,结合补多补少成本进行预测(补多>补少,前两周销量乘以0.8,反之乘以1.2)。

代码目录说明

  • data

    存放原始数据,以及预处理后的文件,特征提取后的训练集文件.

  • feature_engineering

    代码包括数据预处理(比如添加字段名、划分补多补少成本)、特征提取(如上所述)。特征提取部分代码是用SQL编写,采用滑窗法提取特征,所以该步骤会比较繁琐。

  • arima

    时序模型ARIMA的相关代码,包括生成数据的Python代码,运行auto.arima的R代码

  • val

    线下验证集的相关代码,包括以上提到的多种回归模型,以及模型融合。采用的是Python的package,包括pandas、xgboost、sklearn、numpy.

  • test

    线上预测集的相关代码,与val一致

  • visualize

    以天为单位,将每个(item,store_ code)的销量可视化,保存为图片,有助于后续分析。

代码运行步骤

  • 预处理和特征提取 feature_engineering文件夹下

    • 先运行preprocess.sql 导入数据并删除双11双12
    • 运行feature_ train_ all.sql提取全国训练数据特征,修改其中滑窗代码,运行10次得到10份数据
    • 运行feature_ train_ fencang.sql提取分仓训练数据特征,修改其中滑窗代码,运行10次得到10份数据
    • 运行combine_ train.sql合并全国和分仓的10份滑窗数据
    • 运行feature_ test_ all.sql提取全国测试数据特征
    • 运行feature_ test_ fencang.sql提取分仓测试数据特征
    • 运行data_ preprocessing.py添加字段名,划分补多补少成本字段
  • 可视化分析 visualize文件夹下

    • 运行visualize.py,生成各个item的销量曲线。
  • 时序预测 arima文件夹下

    • 运行gen_ data.py生成data.csv文件
    • 运行arima.r 对data.csv中的每个(item,store_ code)进行时序预测
  • 线上预测 test文件夹下

    训练多种回归模型,以xgboost为例,分别对分仓1、2、3、4、5以及全国的样本进行训练和预测,运行步骤如下:

    • 运行xgb/xgb_1/xgb.py,对分仓1的样本建立xgboost模型,得到预测结果
    • 运行xgb/xgb_2/xgb.py,对分仓2的样本建立xgboost模型,得到预测结果
    • 运行xgb/xgb_3/xgb.py,对分仓3的样本建立xgboost模型,得到预测结果
    • 运行xgb/xgb_4/xgb.py,对分仓4的样本建立xgboost模型,得到预测结果
    • 运行xgb/xgb_5/xgb.py,对分仓5的样本建立xgboost模型,得到预测结果
    • 运行xgb/xgb_all/xgb.py,对全国的样本建立xgboost模型,得到预测结果
    • 运行xgb/combine.py,将各个分仓的预测结果合并成一个文件

    上面每个分仓的训练时间都非常快,20秒以内训练并预测完成。对于GBDT、RF、SVR这几个回归模型,运行步骤类似,不再赘述。

    • 运行rule/rule.py得到规则预测的结果
    • 运行ensemble.py得到最终融合的结果
  • 线下验证集val文件夹

    线下验证集有两个作用,一个是调节模型参数和融合的系数,另一个是得到线下产生成本比较高的item(运行val/ensemble.py后可以得到该文件)。

    val文件夹下的代码结构与test文件夹下的类似,运行步骤也是一样的。