天池比赛：津南数字制造算法挑战赛【赛场一】 Drop 队（初赛17名，复赛结果未知）代码，初赛加复赛

2019年3月9号更新——更新说明：

增加了复赛程序，包括收率预测和最优参数生成。

收率预测：

与初赛类似，但有所改动，改动如下：

（1）最终异常数据并没有用其他特征来预测，只是简单的改变为缺失值，最后发现效果甚至好于用其他特征预测。

（2）未使用 id 特征。

（3）经过多次特征选择最终决定用 9 个特征，因此略去了特征选择的过程。
最优参数生成：

测试了两种方法，并最终采用粒子群算法：

（1）梯度下降：通过数值方法计算每个特征的梯度，然后按照梯度下降的方法更新参数，但是最终发现梯度下降对于树模型基本没用，猜测因为特征略微改变后不影响分裂后的结果，因此大部分时候梯度为 0。

（2）粒子群算法：每个粒子代表一组参数，优化目标为最优参数，寻找最优的粒子。并测试了不同的参数，确保找到最优的参数。

更新文件说明：

复赛.ipynb 为本地程序，包括包括收率预测和最优参数生成。

文件夹“津南数字制造算法挑战赛+17+Drop”为最终提交程序，不包括最优参数生成，只包括收率预测。

以下为原始内容：

天池比赛：津南数字制造算法挑战赛【赛场一】初赛 17 名 Drop 队代码

作者: 陶亚凡陕西科技大学

我的 github 和博客：

github: https://github.com/taoyafan

博客: https://me.csdn.net/taoyafan

队友（Blue 电子科技大学的） github 和博客：

github：https://github.com/BluesChang

博客：https://blueschang.github.io

程序各个部分很大程度的参考了鱼佬的 baseline

感谢队友的很多贡献, 感谢鱼佬和他的的 baseline, 感谢林有夕大佬让我在群里不停的学到新知识.

因为我这是第一次参加 ML 的比赛, 看着鱼佬 baseline 开始学习 pandas, sklearn 还有相关知识, 所以水平实在有限. 希望各位大佬给点意见或建议, 有什么问题或者可以改进的地方请告知我, 灰常感谢.

一直想开源, 但是成绩太差, 趁着还在首页, 赶快开源了, 我也是抱着学习的心态, 也没想着拿奖, 所以这个程序也没啥保留~

环境要求

系统

ubuntu 16.04

python 版本

python 3.5 或以上

需要的库

numpy, pandas, lightgbm, xgboost, sklearn

文件说明

包括初赛和复赛（等比赛结束后开源），初赛中包括本地最终程序（.ipynb）、提交的程序（.py）和历史程序。

建议看本地最终程序，里面标题、注释和输出都比较全，方便阅读。

提交的程序为本地程序转成.py格式，然后稍加改善（main函数、结构、路径、输入约束等），介绍可以看里面的readme。

历史程序里面都是记录了我学习的历程，从最初学习鱼佬的程序开始，有些有用有些没用。

程序说明

程序思路:

读取数 -> 手动处理训练集明显异常数据 -> 数据清洗 -> 特征工程 -> 训练

数据清洗:

删除缺失率过高的数据 -> 处理字符时间(段) -> 计算时间差 -> 处理异常值 -> 删除单一类别占比过大的特征

特征工程:

构建新特征 -> 利用特征之间的相关性预测 nan 值 -> 后向特征选择

训练:

使用 lgb 和 xgb 自动选择最优参数, 然后融合

数据通路:

开始学鱼佬的 baseline 自己写着写着变量名太多了,前后运行总是出现各种小错误, 所以对整体结构改了好多次, 最终使用了 pipe line, 包括了整个数据清洗和特征工程部分, 所以变量名少了, 各个部分也不存在耦合了, 所以我觉得有必要介绍下数据通路:

数据读取得到 train, test ----> 合并得到 full ---> 经过 pipe line 得到 pipe_data ---> 训练集测试集分割得到 X_train 和 X_test ---> 训练得到结果 oof 和 predictions

运行说明

在复赛的一级目录下还需要 data 和 result 文件夹，分别放训练、测试数据和最终生成结果，最终生成的结果文件名为：测试名_模型名_结果_特征数量_时间.csv（提交的程序按照官方要求命名）

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
初赛		初赛
复赛		复赛
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

天池比赛：津南数字制造算法挑战赛【赛场一】 Drop 队（初赛17名，复赛结果未知）代码，初赛加复赛

2019年3月9号更新——更新说明：

更新文件说明：

以下为原始内容：

环境要求

文件说明

程序说明

运行说明

About

Releases

Packages

Contributors 2

Languages

taoyafan/jinnan

Folders and files

Latest commit

History

Repository files navigation

天池比赛：津南数字制造算法挑战赛【赛场一】 Drop 队（初赛17名，复赛结果未知）代码，初赛加复赛

2019年3月9号更新——更新说明：

更新文件说明：

以下为原始内容：

环境要求

文件说明

程序说明

运行说明

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages