利用Python来预测预测股票涨停！墨菲特大佬你怎么看？

扑克投资家

2018-05-16

最近接了一个私活，指导学妹完成毕业设计。核心思想就是利用SVM模型来预测股票涨跌，并完成策略构建，自动化选择最优秀的股票进行资产配置。

废话少说，言归正传。这里有关SVM、PCA等等这些与项目相关的数学知识不会提及，我以后会在算法专题里详细描述。

本项目用pycharm + anaconda3.6开发，涉及到的第三方库有pandas，numpy，matplotlib，skllearn。

流程图

在做这个项目的过程中，我体会到想成为一个合格的数据分析或者数据挖掘工程师不仅技术要过关，还需要了解所要挖掘数据涉及到的领域的相关知识。举个例子，在做数据预处理的时候，不知道超额收益率是怎么个意思，查阅资料才了解，超额收益率是股票行业里的一个专有名词，指大于无风险投资的收益率，在我国无风险投资收益率即是银行定期存款。

参数设置

这个就是参数的初始化，没有什么要说的。

数据读取以及标记

代码的基本功能注释里也写了一些，不过不够全面，我再详细说一下。这三部分代码所实现的功能是读取数据，并对数据进行预处理。我已经把最原始的数据整理好放在了excel表格里，并且将第一个月的全部股票的参数放在一个excel里，并将其命名为1.csv，以此类推，我爬取了157个月的数据，总共有157个excel。因此代码里循环的便是excel的文件名，也就是依次读取excel文件。因为数据量太大，所以我一般调试的时候只跑12个月。所以我在参数初始化阶段，训练集（1，8），测试集（8，12）。

将数据读取到DataFrame表格里后，并不是全部使用，而是取超额收益值最好的前百分之三十，以及最差的后百分之三十，并在表格后追加一列，列名叫return_bin,将最好最差的百分之三十的股票的return_bin列各赋值1，0。然后将每个读取并加工的excel表格拼接在一起形成一个大表格，从总抽取70个因子作为X_in_sample，抽取return_bin作为y_in_sample作为训练集。

训练模型