每天2.3TB市场数据,看这家金融交易公司如何规划机器学习?

Jane Street是一家在纽约、伦敦和香港经营的全球自营贸易公司,约有500名员工,每天平均交易全球股票130亿美元。但他们的业务核心是技术,这成功的抓住了我们的眼球。我们发现Jane Street在生产环境中发展机器学习(ML),以在金融贸易中提升竞争力。

每天2.3TB市场数据,看这家金融交易公司如何规划机器学习?

交易是一项具有竞争力的业务,需要优秀的人和技术,当然还需要交易策略来赚钱。这些策略来自哪里?数据、数学和技术之间的相互作用是如何影响开发和运行策略的?

ML从Jane Street开始,这必然与数据有关。Jane Street每天收集并存储大约2.3TB的市场数据。从隐藏在这些PB数据中的是关系和统计规律中,可以得出战略中的模型。但它不仅仅只是厉害的模型。

每天2.3TB市场数据,看这家金融交易公司如何规划机器学习?

在像Jane Street这样的生产环境中,ML工作涉及许多相互关联的部分:

A. Get the data(获取数据):构建基础架构以高效地收集、存储、索引和检索这些数据,并且需要微秒级的准确性,这本身就是一项有趣的工作。Jane Street有一个专门致力于这项重要工作的团队。如果无法在随时随地的记录数据,那么数据就会消失,永远都找不到了。

B. Clean the data(清洗数据):收集到的原始数据经常丢失、损坏、未对齐或存在其他问题。在Jane Street部署任何建模技术之前,需要对数据进行清理。这个过程是不可避免也是至关重要的一部分。

C. Explore the data(探索数据):在了解数据是什么本质之前,很难知道会在技术上出现什么问题,甚至不能确切的弄清楚数据要用在哪里。花时间观察和理解问题的结构有助于挑选适合的建模工具。

D. Leverage domain expertise(财务调度领域的专业知识):越了解要解决问题,就越能建立良好的模型。在整个过程中有许多方面:选择目标函数、合理的近似值以及用于求解的算法。图像模型往往具有传输不变性,例如,金融模型通常具有较低的信噪比和很多的游戏理论经验。由于之前许多的成功和不成功的努力,因此这样的专业知识是难得可贵的。

E. Build a model(构建模型):Jane Street发现标准技术几乎从来都不是开箱即用。您越了解算法是算法以及工作失败的原因,工作或失败的知识越多,您就越有可能找到适用的并且有效的方法来修复手头的问题。或是提出一些全新的东西!

F. Validate the model(验证模型):在建立ML系统时,特别是在竞争激烈的世界里,不乏愚弄自己的方法。当一个新ML系统有高出现率时并且比以往所有的系统都有优异,这可谓是过程中最令人兴奋的部分。这就是Jane Street知道正在取得真正进展的方式。

G. Deploy the model(部署模型):在部署新模型时,会出现很多有趣的工作,这些工作使得一个很酷的想法和实际中赚钱之间有所不同。当然,高效可靠地运行也很重要,但也要确保预测模型的错误不会是灾难性的。此外,一旦开始交易,市场将适应您的策略,这会使您的模型随着时间的推移变得不那么高效。更令人头疼的是,如果您不够小心,那可能会进入一个糟糕的反馈循环中,而您构建的下一个模型会把当前的交易当作是“市场允许的交易场所”。像这样的问题使应用ML来交易成为一个非常具有挑战性的问题。

每天2.3TB市场数据,看这家金融交易公司如何规划机器学习?

多年来,Jane Street使用了各种ML技术:Gaussian过程、随机森林、自适应回归曲线以及遗传算法等。最近Jane Street使用深度学习的想法一直在增长。这些想法(如高参数模型、基于反向随机梯度下降等)在过去5年中一直席卷全球,在不同领域内取得了令人振奋的成果。特别有趣的是,除了几个特殊情况之外,全世界还不了解为什么这些技术可以一并推广。这使得深刻的学习技巧令人期待,并且Jane Street在这方面的工作已经产生了目前在生产中使用的一些策略。深度学习是ML的一个大型的、令人期待的但偶尔混乱的领域,Jane Street对在这方面能够学到和发明的东西抱有乐观态度。

然而,ML世界比深度学习要大得多,也更丰富。众所周知,金融世界并没有呈现出干净的问题:人类世界是复杂的,不断变化的。这就是为什么Jane Stresst致力于寻求、发明、开发和使用交易中最好的工具。我们相信,如果不是我们不断地推动技术和智力的界限,竞争很快就会消失。令人兴奋的是,在竞争激烈的环境中,追求新的想法并付诸于实践。

相关推荐