一网打尽!数据科学领域最好的免费电子书汇总
全文共4912字,预计学习时长15分钟
图源:Unsplash
新年到,又到了给自己定制新年目标的时候了。今年,你打算给自己树什么样的flag,不,是目标呢?
多读书多看报,少吃零食多睡觉?
要么读书,要么旅行,身体和灵魂总有一个在路上?
对于每个人来说,书都是必不可少的精神食粮。
读书=充电。
今天,小芯就为大家整理了25本数据科学领域最好的免费电子书。这25本书中的每一本不是由数据科学先驱、导师、指导者推荐给小芯的,就是小芯在做某个特定项目时参考过的。相信会给大家带来很大的帮助!
因为很多小伙伴都在学习Python,为此,这次整理的大多数书籍都是基于Python的编程。
一、数据科学非技术导论
•Roger D.Peng和Elizabeth Matsui的《数据科学艺术》(The Art of Data Science)
简介:这本书描述了分析数据的过程。作者在管理数据分析师和进行自己的数据分析方面都有着丰富经验,这本书以适用于从业人员和管理人员的方式,总结了他们的经验。
•卡尔、麦克斯、亨利和威尔的《数据科学手册》(Data Science Handbook)
简介:《数据科学手册》是对25位杰出的数据科学家进行深入访谈的汇编,他们在本书中分享了自己的见解、故事和建议。
•RogerD.Peng和Hilary Parker《数据科学的对话》(Conversations On Data Science)
简介:Roger Peng和Hilary Parker于2015年启动了“Not So Standard Deviations”播客,该播客致力于讨论学术界和工业界数据科学家的背景故事和日常生活。这本书收集了他们关于数据科学及其在现实世界中如何起作用(有时不起作用)的许多对话。
图源:Unsplash
二、面向数据科学的Python编程
•Ashwin Pajankar和Sushant Garg《使用Python进行面向对象编程》(Object-Oriented Programming with Python)
简介:这本书是一本简单而明确的使用Python 3面向对象编程的指南。其他类似体裁的书籍利用复杂的写作风格和示例向读者介绍Python 3中的OOP。然而,这本书使用简单的语言来解释概念。目标读者是已经了解Python的中级学习者。
•用Al-Sweigart的《用Python使枯燥的东西实现自动化》(Automate the Boring Stuff with Python)
简介:一旦掌握了编程的基本知识,你将学会如何使用Python在几分钟内完成过去需要数小时编写的程序。
•Jake VanderPlas的《Python数据科学手册》(PythonData Science Handbook)
简介:熟悉阅读和编写Python代码工作的科学家和数据处理人员会发现这个综合的桌面参考非常适合处理日常问题:操作、转换和清理数据;可视化不同类型的数据;以及使用数据构建统计或机器学习模型。很简单,这是Python中科学计算的必备参考资料。
•Scott Grant的《学习Python,打破Python》(Learn Python, Break Python)
简介:《学习Python,打破Python》从对编程的通俗介绍开始。慢慢地,通过示例和练习,并引入更复杂的程序元素来建立一个合适的级别,并展示它们可以在哪里使用以及如何打破它们。通过这种方式积累知识,希望能给读者带来一定程度的舒适感,读者在尝试新事物和承担风险时感到舒适;简而言之,本书希望读者可以熟悉掌握编程。
•Steven Bird、Ewan Klein和Edward Loper《使用Python进行自然语言处理》(Natural Language Processing with Python)
简介:这本书简明介绍了自然语言处理,这个支持各种语言技术,从预测性文本和电子邮件过滤到自动摘要和翻译的领域。使用它,就可以学习如何编写有大量非结构化文本集合的Python程序。读者可以使用各种语言数据结构,获取到注释丰富的数据集,并了解分析书面通信内容和结构的主要算法。
•Ben G Weber《生产中的数据科学》(Data Science in Production)
简介:从初创公司到万亿美元的公司,数据科学在帮助组织最大化他们的数据价值方面起着重要作用。这本书是为那些想要在多个云环境中构建数据产品并开发应用数据科学技能的分析从业者而设计的。
•HilaryMason、DJ Patil的《数据驱动》(Data-Driven)
简介:谷歌、LinkedIn和Facebook如何使用其数据的例子,以及沃尔玛、UPS和其他组织在大数据远未出现之前如何利用资源的例子。不管如何,在21世纪,建立数据文化才是成功的关键。
图源:Unsplash
三、数据挖掘
•Ron Zacharsk的《数据挖掘程序员指南》(A Programmer’s Guide to Data Mining)
简介:如果你是一个对数据挖掘感兴趣的程序员,那么第一步,可能会对初学者的实践指南感兴趣。这就是这本书所提供的。本指南遵循“边做边学”的方法。
•剑桥大学出版社的《社交媒体挖掘》(Social Media Mining)
简介:社交媒体挖掘集成了社交媒体、社交网络分析和数据挖掘于一体,为学生、实践者、研究人员和项目经理提供了一个方便、稳定的平台,以了解社交媒体挖掘的基础和潜力。本书介绍了社交媒体数据产生的独特问题,并提出了网络分析和数据挖掘的基本概念、新出现的问题和有效算法。适合在高级本科和初级研究生课程以及专业短训课程中使用,本书包含不同难度的练习,有助于增强理解,并有助于在社交媒体挖掘的各种场景中应用概念、原则和方法。
四、数学与统计学
•Gareth James、Daniela Witten、Trevor Haste和RobertTibshirani的《统计学习概论》(An Introduction to StatisticalLearning)。
简介:这本书面向非数学专业的高层次本科生、硕士生和博士生,介绍统计学习的方法。这本书还包含了一些R实验室,详细解释了如何在现实生活中实现各种方法,为实践数据科学家提供了宝贵资源。
•Allen B.Downey的《统计思维》(Think Stats)
简介:《统计思维》强调了一些简单的技巧,可以用来探索真实数据集并回答有趣的问题。这本书用从国家卫生研究院获取的数据做了一个案例研究。鼓励读者使用真实的数据集进行项目工作。
•GarethJames、Daniela Witten、Trevor Haste和RobertTibshirani的《统计学习要素》(TheElements of Statistical Learning)
简介:虽然方法是统计的,但重点是概念而不是数学。文中列举了大量的例子,充分利用了彩色图形。本书对于统计学家和任何对科学或工业数据挖掘感兴趣的人来说,是一种宝贵的资源。这本书的覆盖面很广,从监督式学习(预测)到无监督学习。主题包括神经网络、支持向量机、分类树和提升方法——这是任何一本书对这个主题的首次全面论述。
•Allen B.Downey《简化的贝叶斯统计》(Bayesian Statistics Made Simple)
简介:大多数关于贝叶斯统计的书籍都使用数学符号,并用微积分等数学概念来表达观点。这本书使用Python代码代替数学符号,用离散近似代替连续数学。结果,数学书中的积分变成了求和,而概率分布的大多数运算都是简单的循环。
•Cam Davidson Pilon《为黑客提供的概率编程和贝叶斯方法》(Probabilistic Programming & Bayesian Methods for Hackers)
简介:针对黑客设计的贝叶斯方法首先是从计算/理解的角度,然后是从数学的角度来介绍贝叶斯推理。当然,作为一本介绍性的书,只能把它当作一本介绍性的书。对于受过数学训练的人来说,他们可能会用数学分析设计出的其他文本来满足本书引起的好奇心。对于没有数学背景的爱好者,或对数学不感兴趣而只是简单实践贝叶斯方法的人来说,本文应该是够用并且有趣的。
•Bradley Efron和Trevor Haste的《计算机时代的统计推断》(Computer Age Statistical Inference)
简介:这本书带领读者穿越到50年代电子计算诞生后的数据分析革命中。从经典的推论理论开始——贝叶斯,频率学家,费舍尔人——每个章节都涉及一系列有影响的主题:生存分析,逻辑回归,经验贝叶斯,刀切法和自主法,随机森林,神经网络,马尔可夫链蒙特卡罗,模型选择后的推理,等等。这本书将方法论和算法与统计推断结合起来,最后对统计和数据科学的未来方向进行了推测。
图源:Unsplash
五、机器学习
•AurélienGéron的《使用Scikit Learn和TensorFlow亲手实践机器学习》(Hands-on Machine Learning with Scikit-Learn and TensorFlow)
简介:作者Aurélien Géron通过使用具体的例子、最小理论和两个可用于生产的Python框架:scikitlearn和TensorFlow,帮助读者直观地理解构建智能系统的概念和工具。读者将学习一系列技术,从简单的线性回归开始,然后进入深层神经网络。
•Shai Shalev Shwartz和Shai Ben David的《理解机器学习:从理论到算法》(Understanding Machine Learning: From Theory to Algorithms)
简介:书讨论包括学习的计算复杂性,以及凸性和稳定性的概念;重要的算法范例,包括随机梯度下降、神经网络和结构化输出学习;以及新兴的理论概念,如PAC贝叶斯方法和基于压缩的边界。
• Richard S.Sutton和Andrew G. Barto的《强化学习导论》(Reinforcement Learning: An Introduction)
简介:在强化学习中,Richard Sutton和Andrew Barto对该领域的关键概念和算法进行了清晰而简单的描述。第二版已大大扩展和更新,提出了新的主题,更新了其他主题。
•麻省理工学院出版社的《深度学习》(Deep Learning)
简介:深度学习教材是一种资源,旨在帮助学生和从业者进入机器学习领域,尤其是深度学习领域。
•deeplearning.ai的《机器学习训练秘籍》(MachineLearning Yearning)
简介:人工智能正在改变许多行业。《机器学习训练秘籍》,是一本来自吴恩达的免费电子书,教你如何构造机器学习项目。这本书的重点不是教授ML算法,而是如何使ML算法工作。
六、数据可视化
•MalcolmMaclean的《D3技巧》(D3 Tips and Tricks)
简介:超过600页的使用d3.js的提示和技巧,d3.js是网页上领先的数据可视化工具之一。它的目的是开始并推进工作。本书包括超过50个可下载的代码示例。
图源:Unsplash
七、分析
•Jeffrey Leek的《数据分析风格元素》(The Elements of Data Analytic Style)
简介:这本书的重点是数据分析的细节,而这些细节是传统的统计课程和教科书中所没有的。这本书作为数据科学或数据分析入门课程的伴侣是有用的。对于需要阅读和评论数据分析的人来说,本书也是一个有用的参考工具。
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范