Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

2022/10/23一些说明 #1

Open
HaoningChen opened this issue Oct 23, 2022 · 0 comments
Open

2022/10/23一些说明 #1

HaoningChen opened this issue Oct 23, 2022 · 0 comments

Comments

@HaoningChen
Copy link
Owner

HaoningChen commented Oct 23, 2022

我们使用平安银行的3秒钟股票数据,拟合了它的收益率,进而计算出它的股价

为了避免数据泄露,我们构建的特征将全部使用历史数据(即滞后项)和时序特征(只与当前的时间有关)

为了构建时序特征,我们将从趋势(trend)、季节(seasonality)和周期三个角度对目标值ret进行分析(即Auto_ts_ana)

随后,我们清除缺失值,并分别对目标值和特征,训练集和测试集进行标准化(在机器学习领域,数据最好都呈正态分布,因此需要标准化),同样地,为了避免数据泄露,我们使用训练集的数据特征对所有数据进行标准化

最后我们拟合模型,我们还可以更进一步查看模型的shapley value,从而保证模型的可解释性

#########################################################################################

拓展阅读资料:

评估数据集质量(特征选择)

标准化石川,刘洋溢,连祥斌 因子投资方法与实践p301~302(在scutquant中我们采用的是5倍标准差)

时间序列季节性

时间序列周期性(滞后项)

#########################################################################################

录屏:链接:https://share.weiyun.com/fdgBJTE1 密码:btg9ux

#########################################################################################

大家有问题也可以在Issue区留言

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant