AI股神:如何用机器学习预测股价?
本文转载自公众号“读芯术”(ID:AI_Discovery)。
首先要强调,文中只是简单展示了怎样上手H2o.ai机器学习框架,并不作为投资理财的建议。不要简单根据本文就做出任何投资理财的决策。
本文将向你展示如何使用R语言和H2o.ai机器学习框架预测股价。该框架也可以在Python中使用,但因为笔者更熟悉R语言,所以本文就用R语言来演示。以下是详细的步骤:
- 搜集数据
- 导入数据
- 整理并操作数据
- 分割测试并观察训练
- 选择模型
- 训练模型
- 用模型测试数据
- 评估结果
- 如有必要便改进模型
- 重复步骤5到10,直到对结果满意为止
本文研究的问题是:股票在接下来一小时的收盘价是多少?
数据整理
导入想要通过MetaTrader软件进行预测的资产数据之后,需要更改一些变量。首先,定义变量名称:
#seting the name of variables col_names <- c("Date", "Open", "High","Low", "Close", "Tick", "Volume") colnames(data) <- col_names head(data)
数据格式如下:
我们仅用到开盘价、最高价、最低价、收盘价和交易量等一些能获得的数据,那么就需要清除其他数据:
data$Date <- NULL data$Tick <- NULL
因为我们想知道下一个观测期的收盘价,所以需要将下面的值移到上一行,需要用新数据在原始数据集中创建函数并设置变量:
#shifting n rows up of a given variable shift <- function(x, n) { c(x[-(seq(n))], rep(NA, n)) } data$shifted <- shift(data$Close, 1) tail(data)
注意,我们已在上一行中给变量收盘价赋了值。所以,在最后一行中会出现NA,我们用na.omit ()函数跳过这一行:
#remove NA observations data <- na.omit(data) write.csv(data, "data.csv")
OK,数据已准备就绪,可以开始建模了。
分割数据
用H2O.ai进行数据分割。H2O.ai为我们分析和训练人工智能模型提供了一套完整的解决方案,非常好用,即便是没有任何数据科学背景的人也能使用它来解决复杂的问题。先下载H2O.ai:
#Installing the package install.packages("h2o") #loading the library library(h2o)
安装加载好后,启动用于建模的虚拟机。启动虚拟机时,必须设置所需的核数和内存参数:
#Initializing the Virtual Machine using all the threads (-1) and 16gb ofmemory h2o.init(nthreads = -1, max_mem_size = "16g")
导入数据:
h2o.importFile("data.csv") h2o.describe(data)
接着定义想要在数据集中预测的变量,以及那些用于训练模型的变量:
y <- "shifted" #variable we want to forecast x <- setdiff(names(data), y)
随后,分割数据,分别用于训练和测试,其中80%用于训练数据。
parts <- h2o.splitFrame(data, .80) train <- parts[[1]] test <- parts[[2]]
完成这些步骤,就是时候见证H2O.ai创造奇迹的时候了。
选择模型
每一位数据科学家在创建自己的机器学习项目时,必须完成的一项任务便是识别出最佳的一个或一组模型来进行预测。这需要大量的知识,尤其是深厚的数学基础,来决定针对特定任务的最佳方案。
我们可以借助H2O.ai来选择最佳模型,这样就可以腾出时间解决其他问题,这便是自动建模。虽然这可能不是解决问题最有效的方法,却是一个不错的尝试。
训练模型
创建模型,需要调用automl函数并传递必要的参数:
automodel <- h2o.automl(x, y, train, test, max_runtime_secs = 120)
几分钟后,我们就能获取一个按性能顺序排列的模型列表:
运用模型
现在,可以用模型来测试数据啦!你还可以用模型对尚未观察到的数据进行性能评估,以模型和测试数据作为参数调用预测函数:
predictions <- h2o.predict(automodel@leader, test)
好啦,静待一小时,看看你的预测能否成真吧。