每个数据科学家都该读的五本无关技术的书
大数据文摘出品
编译:M、小七
2010年,我在华盛顿大学的一节课上写了我的第一行R代码。当我意识到代码比电子表格更强大时,我立马就迷上了。在过去十年中,我目睹了“数据科学”一词的广泛使用,并看到了大数据、商业智能、数据分析和现在的人工智能等流行语的兴衰。
在华盛顿大学开启我人生新阶段的这一课程是“金融计量学”,就像今天的深度学习课程一样,很大的教室也坐的满满当当。当时,金融危机在每个人心中仍然历历在目。对于工程师来说,这也是一种微妙的信息: 如果你想获得一份报酬丰厚的工作,那么就进入金融领域,成为一名金融计量分析师,就像今天的数据科学一样。
在业务运营中直接使用数学的概念很有趣,不仅仅是为了决策支持,更是为了做出实时决策。然而,金融危机也暴露了,即使是最复杂的模型来应对现实世界的混乱也有不足之处。
许多人认为,金融危机的核心是获得过诺贝尔奖的布莱克-舒尔斯模型(Black-Scholes)期权定价模型。这个模型在不了解其固有局限性和隐含假设的情况下,来衡量大型投资的风险。这种技术盲目性造成了灾难性经济损失的条件。
如今,有抱负的数据科学家们都需要去学习一系列令人难以置信的建模技术。每种方法背后都有自己的一套理论,例如线性回归,你通过使用它就可以知道这些理论的实用性,不管你了解其背后的理论也好,不了解也罢。
这已经创造了一大批准备使用模型而不了解模型背后理论的新工人。年轻社区没有解决技术盲目性问题,而是参与有关工具的代理争论(R与Python!)。
为了帮助解决这个问题(我也受到了影响),我这里提供了一份简短的阅读清单,这份清单可以为数据科学家们奠定理论基础。此外,这些书还将激发你思考在使用模型之前有关模型技术假设的问题。
此列表并非详尽无遗,书籍主题也会从入门到深入研究。其对金融工程的影响是巨大的,因为相比比任何其他学科,金融工程更多的产生的是通用数据科学家。
《不确定性》:这套书是Nassim Taleb的著作集,其中最著名的是《黑天鹅事件》,最好的是《反脆弱》。Taleb是风险、不确定性和定量问题方面最伟大的现代思想家。他也是一个推特大V,以炮轰那些他称为 “有知识却仍然是白痴”(简称IYI)的人而闻名。在背景方面,他原本是一位移民衍生品交易员,之后成为了数学哲学家。你要么爱他,要么恨他,因为他会在他的所有写作中不断挑战你的假设。如果他新写了任何东西,你都应该立即把它放在你的阅读清单上。
《财富公式》:这是关于凯利标准早期在麻省理工诞生的故事。凯利标准据说产生于一次巨大的财务成功。您将了解信息理论之父(Claude Shannon)以及后来在Ed Thorpe所著的《击败庄家》中出名的记牌恶作剧的源头。Thorpe现在被认为是定量对冲基金的教父。最重要的是,这本书展示了一个好的模型如何永远不会被忽视,但是坏的模型可能会毁掉你。这个故事也是历史上计算机科学和数学第一次合作解决现实世界的问题——赌博。这个故事是数据科学产业诞生60年前的一个预示。
《混沌:开创新科学》:这本书包含了最新兴科学的详细历史。既有混沌理论的历史,也有关于该主题的评论。本书将让读者了解我们模拟现实世界的能力的局限性。由于非线性过程的性质,许多正在开发和已经使用的深度学习模型无法真正被理解。本书将帮助您理解这些局限性。此外,光是对Benoit Mandelbrot的生活和工作进行全面评价,就使这本书对于任何数据科学家来说都是必读的。James Gleick是一位出色的作家,还有许多其他优秀的书籍可以添加到你的阅读列表中。
《暗池交易》:本书讲述了一个程序员改变了股市交易的故事。现在预测模型被部署在高频交易的世界中,其中决策以纳秒速度进行。本书介绍了这个隐蔽但强大的生态系统的诞生。关于这个故事的奇妙之处在于它阐明了当你知道一些代码时如何解决许多问题。它还表明创造真正的价值是做一些真正创新的事情,而不是依赖现有的假设。有时你必须有点疯狂才能解决一个难题。
《不会死的理论》:本书主要讲述贝叶斯公式和贝叶斯统计的历史以及它的竞争对手——频率统计。统计历史和用平实的语言评论关键技术主题使得本书变得至关重要。你将了解历史上一些最伟大的思想家,如Pierre Laplace和R.A. Fischer,以及他们的哲学在几个世纪以来如何塑造了世界的数据处理方法。
这五本书虽然不详尽,但将有助于为处理现实问题的数据科学家建立哲学基础。使其不再犯十年前那些金融计量学家们所犯的错误。寻求理解技术和模型的哲学,而不仅仅是机械地使用他们,我们的专业将变得无价。
相关报道:
https://towardsdatascience.com/five-books-every-data-scientist-should-read-that-are-not-about-data-science-f7335fb1f84f