玩转新年(四):想做地表最强数据科学家?这份清单请你收好
点击上方关注,All in AI中国
作者——Jyoti Nigania
我相信所有的专业人士都期待在2019年有一个新的开始,希望能更好的提高他们的数据分析技能。因此,我收集了一些书。通希望我的推荐能帮助数据科学家提高他们的知识和技能。
1.《The Elements of Statistical Learning: Data Mining, Inference, and Prediction》
作者:Trevor Hastie,Robert Tibshirani,Jerome Friedman
链接:https://web.stanford.edu/~hastie/ElemStatLearn/index.html
在过去的十年里,信息技术有了爆炸性的发展。随之而来的是医学、生物学、金融和市场营销等多个领域的进步(同时,伴随着大量数据的产生)。近几十年来统计领域发生了翻天覆地的变化。这场变化是计算机革命的结果。在这场革命开始前,研究人员能够回避一些麻烦的或者他们不想涉及的领域。但是,随着科技的进步,数据量的增加,他们必须要走出"舒适区",大胆探索。计算机革命带来的也有机器/工具的革新。许多工具都有共同的基础,但通常又保留着自己的特性。
而这本书主要内容,就是在一个共同的概念框架中描述了这些工具的深层思想。这本书理论性较强,相对枯燥无味,但作者给出了许多例子,并大量使用彩色图形,帮助你理解。
这本书的另外一个特点是覆盖面很广,从监督学习到非监督学习。课程内容包括神经网络、支持向量机、分类树与图像模型、随机森林等等。还有一章是关于如何应对大量的数据,包括如何测试、如何找出错误。
这绝对是一本漂亮的书。不仅在排版以及色彩的运用上,而且在内容和风格上。它是众多本科或研究生必读的书目,是每一个真正的数据科学家的"枕边书"。
2.《Think Stats: Probability and Statistics for Programmers》
作者:Allen B. Downey
链接:https://greenteapress.com/wp/think-stats-2e/
如果你知道如何编程,你就拥有了使用统计工具将数据转化为知识的技能。这个简明的介绍向你展示了如何使用Python编写的程序以执行统计分析。这本书鼓励人们使用简单的技术来探索真实数据集并回答有趣的问题,并且鼓励你使用真实数据集进行项目。
如果你具有Python的基本技能,那么你可以使用它们来学习概率和统计的概念,并且使用简短的程序进行练习以帮助你理解。在本书中,你将通过一个个生动的案例来帮助你学习整个数据分析的过程。在此过程中,你将了解概率规则、可视化以及许多其他工具和概念。
3.《Street-Fighting Mathematics - The Art of Educated Guessing and Opportunistic Problem Solving》
作者:Sanjoy Mahajan
链接:https://mitpress.mit.edu/books/street-fighting-mathematics
传统的数学教学中,我们所面对的问题往往是作者预先经过选择的。然而,生活往往带给我们的问题是有极强的不确定性的。这也意味着我们是不能照搬教科书中的"金科玉律"。这本书将教我们如何不用证明或精确计算就能猜出答案。在《Street-Fighting Mathematics》中,Sanjoy Mahajan描述了六种常用的统计工具,并用大量的例子来说明每一种工具,他将工具的一般原理从例子中单独抽出来进行论述,以便读者能够快速地掌握工具本身,而非仅仅是某一个特定的例子。
在第一次看到这本书的标题时,我原本以为是一本面向大众的通俗数学书,结果却发现它是一本纯粹的、面向那些有较高理论素养的著作。作为一名物理学家和数学家,我非常喜欢它。而且我不得不表示,我需要向作者学习,学习他看待问题的方式,以及深入的思考角度、对时间的掌控和实践方法。另一方面,我不建议那些在数学方面有困难的人学习它。如果你对微积分、微分方程、统计学和基础物理没有一个深刻的理解,这本书对你而言,并不能发挥它应有的作用。
4.《Exploratory Data Analysis with R》
作者:Roger D. Peng
链接:https://leanpub.com/exdata
数据科学已经席卷了世界。人们越来越意识到海量数据意味着海量的价值,每个研究领域和业务领域都受到了影响。这本书涵盖了对相关技术的探索以及总结。
探索性数据分析是数据科学过程的一个关键部分,因为它允许你锐化你的问题和细化你的建模策略,以开发更复杂的统计模型。本书涵盖了构建信息数据图形的一些基本原则,以及对高维数据可视化的一些常见统计技术。所涉及的主题包括绘制探索性图形、分析图形的原理、聚类方法和降维技术等等。
5.《Statistical Inference For Data Science》
作者:Brian Caffo
链接:https://leanpub.com/LittleInferenceBook
《Statistical Inference》是从数据中得出关于人口或科学事实的结论的过程。有许多执行推理的模式,包括统计建模、面向数据的策略以及在分析中进行设计和随机化处理。
这本书,还包括在线课程《Coursera Course on Statistical Inference》。该课程会通过一系列的方法向你展示推理的基本原理,旨在帮助你更好的理解统计推理,并利用你所得到的知识在分析数据时做出明智的选择。它涉及到的主题非常广泛,希望可以满足你多元的需求。
6.《Correlation Is Not Causation》
作者:Lee Baker
链接:https://www.chi2innovations.com/lm-correlation-is-not-causation/
《Correlation Is Not Causation》解释了如何系统地测试五种最常见的因果关系陷阱,即使是专业人士(偶尔)也会陷入其中。我们将学习创建策略来分析数据并以一种易于理解的方式解释结果。
最明显的特点是,它的语言更加直白,没有那些太过专业的术语。它充满了直观的例子帮助你理解,哪怕你没有相关经验。简而言之,它是初学者最好的选择。