摩根大通机器学习与金融大数据指南——未来的华尔街大亨
更多深度文章,请关注:https://yq.aliyun.com/cloud
金融服务工作流行得快、过时得也快。2001年互联网公司的股权研究风靡一时;2006年,对担保债务凭证(CDOs)有着偏爱;2010年,信贷交易商很受欢迎;2014年,又轮到了合规专家;而在2017年,这是关于机器学习和大数据的时代,如果你能涉足该领域,那么你的未来将会有所保证。
摩根(J.P.Morgan)的定量投资和衍生策略团队发布了关于金融服务领域大数据和机器学习的最全面的报告,报告称,“大数据和人工智能(AI)战略”是面向“机器学习和另类数据投资方式”,机器学习将对未来市场运作至关重要。分析师、投资组合经理、交易员和首席投资官都需要对机器学习技术熟练掌握。如果不这样做,那么就会被淘汰:像季度收益和GDP数据这样的传统数据源将变得越来越不相关,这是因为使用更新的数据集和方法的管理人员能够提前预测,并在发布之前就完成交易。
由于280页的报告太长而无法详细介绍,现总结一些突出的观点。
1. 银行将需要聘请优秀的数据科学家,同时这些科学家也了解市场运作
摩根警告银行和金融公司优先考虑基于市场知识的数据分析技能的方式,这样做是相当危险的,而了解数据和信号背后的经济学比开发复杂的技术解决方案更为重要。
2. 机器在短期和中期内最有能力做出交易决定
摩根指出,人类已经被排除在高频交易之外了。未来,机器在中期交易中也将越来越普遍:“机器有能力快速分析新闻消息和推文、处理收益报表、挖掘网站和瞬时交易”,这将有助于削弱多基础分析师、长短期股票管理者和宏观投资者的需求。
3. 人类适合在长期做出交易决定(作者未编辑3)
从长期来看,人类保留的一个优势就是对制度的把握及人类反应的预测比机器做得更好,这些预测涉及解读诸如政治家和央行行长等人复杂的人类反应、了解客户定位或预期拥挤等。如果你想作为一个人类投资者并生存下去,那就需要打造出自身的优势,
4. 需要一支大军来获取、筛选并评估数据
在实施机器学习策略之前,数据科学家和定量研究人员需要获取数据并对其分析以获得可交易信号和深刻见解。
数据分析很复杂,今天的数据集通常比昨天的数据集更大,这些数据集可能包括个人(社交媒体帖子、产品评论、搜索趋势等)、业务流程(公司废气数据、商业交易、信用卡数据等)和传感器(卫星图像数据、交通、轮船定位等)生成的数据。大数据很少呈现出干净的内容,无法直接提供给机器学习算法使用,因此需要专门的团队预处理数据后才能在交易策略中使用。另外还需要评估“alpha内容(可以简单理解为超额回报)”。Alpha内容将部分依赖于数据的成本、所需的处理量以及数据集的使用情况。
5. 不同类型的机器学习针对不同的用途
机器学习有多种迭代算法,包括监督学习、无监督学习以及深度和增强学习。
监督学习的目的是建立两个数据集之间的关系,即使用一个数据集去预测另一个数据集;无监督学习的目的是尝试了解数据的结构并确定其背后的主要驱动力;深度学习的目的是使用多层神经网络来分析一个趋势,而增强学习则鼓励算法来探索和找到最有利可图的交易策略。简单来说,监督学习就是预先受到好的训练,比如买房政策——房价会涨,那么买买买就行;而无监督学习就是没有标准供你参考,你不知道房价会不会崩盘,需要去尝试,第一次买,房价跌了会有财产损失,第二次买,买对了,房价涨了,然后你就知道什么时候买、买什么样的房子会涨;深度学习就是综合目前的数据判断一个趋势,房价之后会涨还是跌,之后再做出选择;而增强学习就是尝试找到一个最合适的买房方式(以上纯属杜撰,买房有风险,入市需谨慎)。
6. 样本数据使用监督学习进行趋势预测
在财务背景下,摩根表示,监督学习算法根据提供的历史数据找出最佳预测关系。一般来讲,有监督学习算法有两类:回归和分类。
基于回归的监督学习方法尝试基于输入变量来预测输出。
分类方法逆向操作,并尝试确定一组分类属于哪个类别。
7. 无监督学习用于确定大量变量之间的关系
在无监督学习中,机器从大量变量中获得回归,并且不知道哪些是依赖和独立变量。概括来讲,无监督学习方法被归为聚类或因子分析。
聚类是基于一些相似性概念将数据集分成较小的组。
因子分析旨在识别数据的主要驱动因素或确定数据的最佳表示。在资产投资组合中,因子分析将确定动力、价值等主要驱动因素。
8. 深度学习系统将承担让人难以定义但易于执行的任务
深度学习实际上是人为重建人类智慧的一种尝试。摩根表示,深度学习特别适用于非结构化大数据集的预处理(例如,可用于统计卫星图像中的汽车数、或在新闻稿中识别情绪)。深度学习模型可以使用假设的财务数据系列来估计市场调整的可能性。
深度学习方法基于神经网络,这些神经网络类似于人类大脑的神经网络。在网络中,每个神经元接收来自其他神经元的输入,并且“计算”这些输入的加权平均值,不同输入的相对权重取决于以往的经验,一层连接一层,网络层数越高,学习到的特征越抽象。
9. 增强学习将用于选择连续的行动以最大化最终的奖励
增强学习的目标是选择一系列连续的行动以最大化最终(或累积)奖励,这与监督学习(通常一步过程)不同,增强学习模型并不清楚每个步骤的正确操作。
摩根的电子交易部门已经采用增强学习开发了一些算法,下图显示了银行机器学习模型(怀疑是故意模糊)。
10. 不需要成为机器学习专家,而需要成为一个优秀的金融工程师和出色的程序员
摩根表示,数据科学家所要求掌握的技能与定量研究员几乎相同。因此,有着计算机科学、统计学、数学、金融工程、计量经济学和自然科学背景的买方和卖方都能重新塑造自我。量化交易策略将是关键技能,这是由于量化研究者相比于IT专家而言更容易改变数据集的格式/大小,并能采用更好的统计和机器学习工具。
另外不需要知道机器学习的详细细节,这是因为大多数的机器学习方法已经被编程,你只需要应用现有的模型。作为新手,建议使用像Weka这样基于GUI的软件来查看小数据集,Python也拥有Keras这样丰富的库,以及像Tensorflow和Theano这样的开源机器学习库。
11. 你所需要知道的编程语言和数据分析包
如果只是计划学习与机器学习相关的一种编码语言,建议选择R语言以及对应的数据包,C ++、Python和Java也有对应的机器学习应用程序。
12. 流行的机器学习代码例子(Python语言)
13. 支撑函数也需要了解大数据
支撑函数也需要了解大数据。报告指出,大多招聘人员和招聘经理无法区分人工智能和实际设计可交易策略的这种能力,合规团队还需要能够审查机器学习模型以确保数据被正确地匿名化。金融领域的机器学习时代已然来临,那些不学习、拒绝进化的人将面临过时的风险。分析师、投资组合经理、交易员和首席信息官最终将不得不熟悉大数据和机器学习的发展和相关的交易策略。
作者信息
Sarah Butcher:eFinancialCareers特约作家,毕业于英国牛津大学,对银行金融业感兴趣。
Linkedin:https://www.linkedin.com/in/sarahbutcherjournalist/?ppe=1
Twitter:https://twitter.com/MadameButcher
本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。
文章原标题《J.P.Morgan’s massive guide to machine learning and big data jobs in finance》,作者:Sarah Butcher,译者:海棠,审阅:东东邪
附件为原文的pdf
文章为简译,更为详细的内容,请查看原文