摩根大通报告12个亮点总结:金融领域的机器学习工具有哪些?
选自eFinancialCareers
作者:Sarah Butcher
机器之心编译
参与:李泽南、吴攀
金融机构由于面临激烈的竞争压力,需要不断对自身结构和人才资源进行迭代,以适应不断变化的新情况。随着微软前首席科学家邓力宣布加盟对冲基金巨头 Citadel,我们可以看到金融界已经向计算机科学(特别是机器学习)人才打开了大门。近日,摩根大通发布了一份题为《大数据与人工智能战略:机器学习和其它投资数据分析方法(Big Data and AI Strategies: Machine Learning and Alternative Data Approach to Investing)》的报告,对机器学习和大数据对金融领域的影响进行了全面的阐述。eFinancialCareers 对这份长达 280 页的报告进行了提炼,得出了 12 个重要看点,机器之心对这些看点进行了编译介绍。
31 个 JP 摩根交易风险溢价指数的最小生成树
金融领域需要的职位总是随着时代而改变。在 2001 年,互联网公司分析师非常火爆;2006 年,债务抵押债券设计师风头正劲;到了 2010 年,信贷交易员是最流行的工作;2014 年,职业法规专家成为了主流。到了人工智能兴起的 2017 年,机器学习和大数据开始影响金融业。如果你有相关专业的背景,金融领域已经向你打开了大门。
摩根大通量化投资和金融衍生品战略团队的 Marko Kolanovic 和 Rajesh T. Krishnamachari 最近刚刚发布了一份在金融服务领域机器学习和大数据最为全面的一份报告。
这份报告名为《大数据和 AI 战略》,副标题是「机器学习和其它投资数据分析方法」,该报告指出,机器学习将会在未来对市场运作至关重要。分析师、投资经理、交易预案和投资总监都需要了解机器学习技术。如果不这样做,他们就会落伍——像月收益和 GDP 数字这样的常规数据源正在变得与投资策略越来越不相关,因为使用新数据集和方法的投资者可以预测这些数字,并在它们发布前预先做出行动。
这份长达 280 页的报告中包含许多细节,以下是其中的一些重要观点。
1. 银行需要聘请优秀的数据科学家,但他们也需要了解市场运作方式
金融专业知识仍是最重要的,摩根大通首先警告银行和金融公司不要把数据分析技能凌驾于市场知识之上。了解数据和信号背后的经济学原理要比开发复杂的技术解决方案更重要。
2. 机器最适合在短期和中期做出交易决策
在美国等允许即时交易的市场中,人类已经被排除在高频交易之外了。在未来,摩根大通认为机器也会成为中期交易的主要玩家:「机器可以快速分析新闻源、推特,处理收益报表,搜索网站,并瞬间完成交易。」这些优势对于基本面分析师、多空分析师和宏观投资者非常有帮助。
而对于长线投资而言,人类仍然会保持自己的优势。「机器在评估结构性变化(市场拐点)和预测方面不会比人更好,这些复杂情况的预测涉及政治家和中央银行等复杂的人类反应,同时需要了解客户定位,同时预测大众情绪,」摩根大通表示。这意味着人类投资者的定位将会发生改变。
3. 金融机构需要大量人力来获得、提炼和评估数据
在机器学习策略应用之前,数据科学家和量化分析人员需要先获得并分析数据,这样才能获得正确的交易信号和洞见。
摩根大通指出,数据分析具有复杂性。随着设备数量的增长,今天人们可以获取的数据集远远大于过去。它包含所有从用户那里获取的信息(社交媒体发言、产品评测、搜索记录等),到商业数据(公司财务数据、交易、信用卡数据等),同时还包括各类传感器收集到的数据(卫星图像、交通数据、货船定位数据等)。这些新形式的数据需要用新的方法进行处理以用于制定交易策略。金融机构也需要评估「Alpha 内容」——生成预期市场可得收益水平的能力。Alpha 内容取决于数据收集的花费,数据处理需要的能力以及数据集的质量。
投资经理的大数据工作流程
4. 有很多不同种类的机器学习方法,它们正用于不同目的
机器学习有多种衍生方法,其中包括监督学习、无监督学习、深度学习和强化学习等。
对于金融领域而言,监督学习的目的是建立两个数据集之间的关系,并使用一个数据集预测另一个数据集;无监督学习的目的是尝试了解数据的结构,并确定其背后的主要规则;深度学习的目的是使用多层神经网络来分析事物背后的趋势;而强化学习则使用算法来探索和找到最有利可图的交易策略。
机器学习/人工智能技术的分类
5. 监督学习将被用于预测趋势
在财务背景下,摩根大通认为监督学习算法通过历史数据,可以找到规律,对未来进行预测。监督学习算法有两种形式:回归和分类方式。
回归形式的监督学习方法尝试基于输入变量来预测输出。例如:如果通货膨胀速度加快,它可能会判断下一步市场的走向。
分类方法则与之相反,尝试将数据识别到已有类别中。
6. 无监督学习将被用于识别大量变量之间的关系
在无监督学习中,机器被输入了一整套资产组合的回报,同时并不知道其中的关联和独立变量。在高层次上,无监督学习方法被归为聚类或因素分析。
聚类分析基于一些相似性概念将数据集分成较小的组。例如:它可以包含历史数据中高低波动性、经济上升和下降速率或通货膨胀的增减。
因素分析旨在识别数据的主要内在规律或确定数据的最佳表示方法。例如:收益曲线的运动可以被解释为曲线的平行位移、曲线变陡峭或变凸。在复杂资产组合中,因素分析将提炼出数据的主驱动力,如动量、价值、进位、波动或流动性。
7. 深度学习系统将承担起难以定义但易于执行的任务
深度学习是重现人类大脑智慧的一种方式。摩根大通在报告中认为深度学习特别适合非结构化大数据集的预处理(例如,可应用于分析卫星图像中的汽车、或新闻稿中的情绪)。深度学习模型可以用虚拟财务数据来预测市场修正概率。
深度学习方法基于神经网络,而神经网络是受到人类大脑神经活动的形式而受到启发的。在网络中,每个神经元接收来自其他神经元的输入,并计算这些「神经元」的加权平均值。权重的计算则基于从历史数据中得来的经验。
神经网络的特征指标,其中包括成本函数、优化器、初始化方案、激活函数、正则化方案
8. 强化学习将被用于行动的选择,以最大化收益
强化学习的目标是选择一系列成功的行动以最大化目标(或累积)收益。不同于监督学习(通常只是一步的过程),强化学习模型并不知道每一步的确切行动是什么。摩根大通的电子交易部门已经开发了一些基于强化学习的算法。下图显示了该公司的一些机器学习模型。
9. 你不需要成为一位机器学习专家,但你需要成为一位出色的 quant 和出色的程序员
摩根大通说数据科学家应该具备的技能组合基本上和量化研究者差不多。现在有计算机科学、统计学、数学、金融工程学、计量经济学和自然科学背景的买方和卖方 quant 都应该重塑自我。量化交易策略的专业技能将会成为关键。Kolanovic 和 Krishnamacharc 说:「比起一位 IT 专家、硅谷企业家或学者学习如何设计一种可行的交易策略,一个 quant 研究者改变数据集的格式/大小并使用更好的统计与机器学习工具可要容易得多。」
摩根大通强调,你并不需要非常详细地洞悉机器学习的方方面面。大多数机器学习方法都有现成的代码(比如用 R 语言写的):你只需要应用已有的模型即可。他们建议,开始的时候使用 Weka 这样的基于 GUI 的软件来操作小型数据集。Python 也有 Keras 这样的扩展库。另外还有 TensorFlow 和 Theano 这样的开源机器学习库。
典型任务和对应的常用机器学习方法
10. 以下为你需要知道的编程语言和数据分析包
如果你只是想要学习一种与机器学习相关的编程语言,摩根大通推荐选择 R 语言,包括下图中相关的程序包。然而,C++、Python、Java 也如下图所示有机器学习应用。
各种语言中一些常用的库
11. 以下为一些流行的 Python 语言机器学习代码示例
12. 支持部门需要理解大数据
最终,摩根大通注意到支持部门也要包含大数据。报告说到,很多雇主与人事经理都无法明确区别「谈论人工智能的能力」与「设计可交易策略」的能力,合规团队需要能够审查机器学习模型,并保证数据匿名,不包含私人信息。金融领域机器学习时代正在到来。