GitHub

##第二届阿里云安全算法挑战赛

1.端口扫描特征表

特征名前后缀	特征含义
sip_client~	按照souce_ip，端口，日期汇总的连接统计数据
sip_connect~	按照souce_ip，日剧汇总的连接统计数据
~ratio	sip_client/sip_connect 前2者的比值
~counts_crt	按照client_ip,端口，日期汇总的连接统计数据（非最终特征）
~counts_cip	按照client_ip，日期汇总的连接数据（非最终特征）
~~counts_crt~~	按照source_ip,端口，日期汇总的~counts_crt特征
~~counts_cip~~	按照source_ip,端口，日期汇总的~counts_cip特征

2.模型参数

3.模型特征及参数

每个端口的四个xgboost模型特征完全一致，仅仅在训练集的选取上有差异（正例和1/4负例），结果取四个模型并集。

4.黑名单规则

新数据中没有被标注为恶意的用户且连接天数大于2。

1.网页预处理处理

2.分词&停用词过滤

3.特征工程及特征选择

4.模型训练

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
content_risk.sql		content_risk.sql
portscan.sql		portscan.sql
阿里云安全赛答辩PPT（终稿）铁球(脱敏） Fanyou Wu.pdf		阿里云安全赛答辩PPT（终稿）铁球(脱敏） Fanyou Wu.pdf

Provide feedback