数据分析、机器学习必读书目系列——《利用Python进行数据分析》

数据分析、机器学习及人工智能必读书目——工具篇之《利用Python进行数据分析》

我们已经进入了全新的数据时代,大数据、云计算、物联网、机器学习、人工智能等等一系列技术纷至沓来,数据的管理和应用已经渗透到每一个行业和业务领域,成为当今以及未来商业运作的基础资产。可以说,只有掌握数据并善于运用数据的人,才会在竞争日益激烈的环境中寻得先机。 那么我们该怎么样学习大数据分析、机器学习以及人工智能?作者认为,学习大数据、机器学习和人工智能,所需的知识分为五个层次,一是数学知识;二是统计学知识;三是算法知识;四是工具知识;五是哲学思想知识。所谓工具知识,就是我们需要借助计算机软件来完成相关的分析和运算,目前大数据和机器学习领域热门的语言就是 R 和 Python。我们会分别介绍这五个层次所需要看的书,希望对大家有用。

《利用Python进行数据分析》

  • 作者:Wes McKinney

  • 译者:唐学韬 等

  • 页数: 464

  • 出版:机械工业出版社 2013年版

数据分析、机器学习必读书目系列——《利用Python进行数据分析》

简要评价:

Python 正迅速成为数据科学家们钟爱的编程语言,原因在于其简单优雅,提供了一种覆盖范围更为广阔的编程语言生态系统,以及具有一定计算深度且性能良好的科学计算库。在 Python 自带的科学计算库中,Pandas 模块是最适于数据科学相关操作的工具。它与 Scikit-learn 两个模块几乎提供了数据科学家所需的全部工具。

本书正是由大名鼎鼎的 Pandas 模块的作者亲自撰写的,功底非常深厚,数据分析有着很丰富的经验,因此写出的书也是深入浅出,让人很容易就能看懂,非常适合刚刚接触 Python 的分析人员以及刚刚接触科学计算的 Python 程序员。当然,因为定位为入门,所以这本书相对比较浅显,看完之后想再进一步,还需要更加深入的钻研。

内容介绍:

还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。 由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。

  • 将IPython这个交互式Shell作为你的首要开发环境。

  • 学习NumPy(Numerical Python)的基础和高级知识。

  • 从pandas库的数据分析工具开始。

  • 利用高性能工具对数据进行加载、清理、转换、合并以及重塑。

  • 利用matplotlib创建散点图以及静态或交互式的可视化结果。

  • 利用pandas的groupby功能对数据集进行切片、切块和汇总操作。

  • 处理各种各样的时间序列数据。

  • 通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。

作者简介

Wes McKinney 资深数据分析专家,对各种Python库(包括NumPy、pandas、matplotlib以及IPython等)等都有深入研究,并在大量的实践中积累了丰富的经验。撰写了大量与Python数据分析相关的经典文章,被各大技术社区争相转载,是Python和开源技术社区公认的权威人物之一。开发了用于数据分析的著名开源Python库——pandas,广获用户好评。在创建Lambda Foundry(一家致力于企业数据分析的公司)之前,他曾是AQR Capital Management的定量分析师。

名家推荐

“科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”

——Fernando Pérez 加州大学伯克利分校 研究科学家, IPython的创始人之一

书籍目录

前言

第1章 准备工作

  • 本书主要内容

  • 为什么要使用Python进行数据分析

  • 重要的Python库

  • 安装和设置

  • 社区和研讨会

  • 使用本书

  • 致谢

第2章 引言

  • 来自bit.ly的1.usa.gov数据

  • MovieLens 1M数据集

  • 1880-2010年间全美婴儿姓名

  • 小结及展望

第3章 IPython:一种交互式计算和开发环境

  • IPython基础

  • 内省

  • 使用命令历史

  • 与操作系统交互

  • 软件开发工具

  • IPython HTML Notebook

  • 利用IPython提高代码开发效率的几点提示

  • 高级IPython功能

  • 致谢

第4章 NumPy基础:数组和矢量计算

  • NumPy的ndarray:一种多维数组对象

  • 通用函数:快速的元素级数组函数

  • 利用数组进行数据处理

  • 用于数组的文件输入输出

  • 线性代数

  • 随机数生成

  • 范例:随机漫步

第5章 pandas入门

  • pandas的数据结构介绍

  • 基本功能

  • 汇总和计算描述统计

  • 处理缺失数据

  • 层次化索引

  • 其他有关pandas的话题

第6章 数据加载、存储与文件格式

  • 读写文本格式的数据

  • 二进制数据格式

  • 使用HTML和Web API

  • 使用数据库

第7章 数据规整化:清理、转换、合并、重塑

  • 合并数据集

  • 重塑和轴向旋转

  • 数据转换

  • 字符串操作

  • 示例:USDA食品数据库

第8章 绘图和可视化

  • matplotlib API入门

  • pandas中的绘图函数

  • 绘制地图:图形化显示海地地震危机数据

  • Python图形化工具生态系统

第9章 数据聚合与分组运算

  • GroupBy技术

  • 数据聚合

  • 分组级运算和转换

  • 透视表和交叉表

  • 示例:2012联邦选举委员会数据库

第10章 时间序列

  • 日期和时间数据类型及工具

  • 时间序列基础

  • 日期的范围、频率以及移动

  • 时区处理

  • 时期及其算术运算

  • 重采样及频率转换

  • 时间序列绘图

  • 移动窗口函数

  • 性能和内存使用方面的注意事项

第11章 金融和经济数据应用

  • 数据规整化方面的话题

  • 分组变换和分析

  • 更多示例应用

第12章 NumPy高级应用

  • ndarray对象的内部机理

  • 高级数组操作

  • 广播

  • ufunc高级应用

  • 结构化和记录式数组

  • 更多有关排序的话题

  • NumPy的matrix类

  • 高级数组输入输出

  • 性能建议

  • 附录A Python语言精要


喜欢闲适安静的生活,懂一点计算机编程,懂一点统计学和数据分析。(爱编程爱统计)

相关推荐