DataMiningCase

流失预警模型（二分类），代码原型为本人在某银行做的流失模型，AUC：83%、召回率（覆盖率）：19.4%，精确率：85%（数据是外部数据/代码已脱敏）

基于真实业务上手数据挖掘（银行流失预警）：数据的处理、LightGBM、sklearn包（里面含有：GridSearchCV寻找最优参、StratifiedKFold分层5折切分、train_test_split单次数据切分等）、stacking模型融合、画AUC图、画混淆矩阵图，并输出预测名单。

告诉你：是什么（WHAT）、怎么做(HOW)、为什么这么做(WHY)。

注释覆盖率为80%左右，旨在帮助快速入门，新手级

项目涉及的如下：

商业理解
- 业务需求分析（实战）
数据理解
- 数据质量探查
- 重要特征探查
数据处理（数据准备）
特征工程（数据准备）
建立模型
模型融合
- Stacking模型融合_note版(含简单加权融合)
- Stacking模型融合_py版
模型评估及实验
- 画图
  - Plot/auc_plot（画AUC图）
  - Confusion_matrix/plot_confusion_matrix（画混淆矩阵图）
- 实验模板

数据来源

仅用于测试代码的逻辑，非银行敏感数据。来源：ATEC蚂蚁开发者大赛-支付风险识别数据，赛题的目的是根据历史交易数据识别当前交易是否为欺诈交易。

作者为了快速完成代码测试，将训练集按1:10切分，用1/10作为代码测试的数据集。并且将多分类（0，1，-1），中的-1（未知）通过预测，将高分的一起归到1（风险交易）里。具体可参考：https://blog.csdn.net/weixin_31866177/article/details/93192939

当然这也是猜测，因为作者已经忘记了😢（3年前的事情），通过统计等发现跟这个数据集非常像。

说明

本专题并不用于商业用途，转载请注明本专题地址，如有侵权，请务必邮件通知作者。

本人水平有限，代码搬到外部环境难免有遗漏错误的地方，望不吝赐教，万分感谢。

有代码疑惑的地方也请找我。

Email：[email protected]

PS：如你尝试有效并喜欢，欢迎点赞，如你尝试失败请联系我。

Name		Name	Last commit message	Last commit date
Latest commit History 140 Commits
assets		assets
doc		doc
notebook		notebook
py		py
金融量化分析		金融量化分析
.gitattributes		.gitattributes
README.md		README.md
data.zip		data.zip

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

DataMiningCase

注释覆盖率为80%左右，旨在帮助快速入门，新手级

项目涉及的如下：

数据来源

说明

About

Releases

Packages

Languages

ben1234560/DataMiningCase

Folders and files

Latest commit

History

Repository files navigation

DataMiningCase

注释覆盖率为80%左右，旨在帮助快速入门，新手级

项目涉及的如下：

数据来源

说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages