大数据机器学习及人工智能必读书目——《统计学:从数据到结论》

大数据、机器学习及人工智能必读书目——《统计学:从数据到结论》

我们已经进入了全新的数据时代,大数据、云计算、物联网、机器学习、人工智能等等一系列技术纷至沓来,数据的管理和应用已经渗透到每一个行业和业务领域,成为当今以及未来商业运作的基础资产。可以说,只有掌握数据并善于运用数据的人,才会在竞争日益激烈的环境中寻得先机。 那么我们该怎么样学习大数据分析、机器学习以及人工智能?作者认为,学习大数据、机器学习和人工智能,所需的知识分为五个层次,一是数学知识;二是统计学知识;三是算法知识;四是工具知识;五是哲学思想知识。所谓工具知识,就是我们需要借助计算机软件来完成相关的分析和运算,目前大数据和机器学习领域热门的语言就是 R 和 Python。我们会分别介绍这五个层次所需要看的书,希望对大家有用。

《统计学:从数据到结论》

  • 作者:吴喜之

  • 书号: ISBN 978-7-5037-6789-0

  • 出版:中国统计出版社 2013年版

大数据机器学习及人工智能必读书目——《统计学:从数据到结论》

简要评价:

统计学方面的经典书籍非常多,尤其是很多国外大牛写的。但是不知道是由于翻译问题还是什么,总感觉不太清晰明了。国内,吴喜之教授的系列教材是我的最爱。

这本《统计学:从数据到结论(第四版)》尽可能地少用抽象的数学,没有太多的定义、概念和抽象的术语,而是从数据分析实际出发,让读者能够知道哪些问题时可以通过统计方法来解决的,能够从数据出发,根据实际需要,选择何时模型和方法,并且通过计算机软件得到结论,以及解释结论。

从写作风格来看,这本书语言非常平实,但又很规范严格,体现了吴喜之教授融会贯通、信手拈来的轻松写意,阅读体验非常舒服,特别适合非统计专业的读者作为入门读物。

内容介绍:

本书是全国统计教材编审委员会“十二五”规划教材,受到良好的赞誉,最新版本是第四版。

第四版采用免费的自由软件 R,由浅入深地把统计最基本和最有用的部分在这么一本不厚的教科书中完整地介绍给读者,而且让读者可以边学习,边着手用统计软件处理数据。

不仅可供没有学过概率论和数理统计的非统计专业的本科生和研究生使用,也可以供统计专业的本科生作为理解统计本来含义的教材使用。

书籍目录

第一章 一些基本概念

  • 1.1 统计是什么?

  • 1.2 现实中的随机性和规律性,概率和机会

  • 1.3 变量和数据

  • 1.4 变量之间的关系

  • 1.5 统计、计算机与统计软件

  • 1.6 小结

  • 1.7 习题

第二章 数据的收集

  • 2.1 数据是怎样得到的?

  • 2.2 个体、总体和样本

  • 2.3 收集数据时的误差

  • 2.4 抽样调查和一些常用的方法

  • 2.5 计算机中常用的数据形式

  • 2.6 小结

  • 2.7 习题

第三章 数据的描述

  • 3.1 如何用图来表示数据?

  • 3.2 如何用少量数字来概括数据?

  • 3.3 小结

  • 3.4 习题

第四章 机会的度量:概率和分布

  • 4.1 得到概率的几种途径

  • 4.2 概率的运算

  • 4.3 变量的分布

  • 4.4 抽样分布、中心极限定理

  • 4.5 用小概率事件进行判断

  • 4.6 小结

  • 4.7 习题

第五章 简单统计推断:总体参数的估计

  • 5.1 用估计量估计总体参数

  • 5.2 点估计

  • 5.3 区间估计

  • 5.4 关于置信区间的注意点

  • 5.5 小结

  • 5.6习题

第六章 简单统计推断:总体参数的假设检验

  • 6.1 假设检验的过程和逻辑

  • 6.2 对于正态总体均值的检验

  • 6.3 对于比例的检验

  • 6.4 从一个例子说明“接受零假设”的说法不妥

  • 6.5 小结

  • 6.6 习题

第七章 变量之间的关系:回归分析和方差分析

  • 7.1 问题的提出

  • 7.2 定量变量的相关

  • 7.3 定量变量的线性回归分析

  • 7.4 自变量中有定性变量的回归

  • 7.5 实验数据的回归和方差分析

  • 7.6 Logistic回归

  • 7.7 小结

  • 7.8 习题

第八章 列联表、X2检验和对数线性模型

  • 8.1 列联表数据

  • 8.2 二维列联表的独立性检验

  • 8.3 高维列联表和多项分布对数线性模型

  • 8.4 Poisson对数线性模型

  • 8.5 小结

  • 8.6 习题

第九章 寻找多个变量的代表:主成分分析和因子分析

  • 9.1 主成分分析

  • 9.2 因子分析

  • 9.3 因子分析和主成分分析的一些注意事项

  • 9.4 小结

  • 9.5 习题

第十章 把对象分类:聚类分析

  • 10.1 如何度量距离远近?

  • 10.2 事先要确定分多少类:忌均值聚类

  • 10.3 事先不用确定分多少类:分层聚类

  • 10.4 处理连续和分类变量混合的大数据集:两步聚类

  • 10.5 聚类要注意的问题

  • 10.6 小结

  • 10.7 习题

第十一章 把对象归到已知的类中:判别分析

  • 11.1 判别分析方法

  • 11.2 判别分析要注意什么

  • 11.3 小结

  • 11.4 习题

第十二章 两组变量之间的相关:典型相关分析

  • 12.1 两组变量的相关问题

  • 12.2 典型相关分析

  • 12.3 小结

  • 12.4 习题

第十三章 行变量和列变量的关系:对应分析

  • 13.1 对应分析方法

  • 13.2 小结

  • 13.3 习题

第十四章 随时间变化的对象:时间序列分析

  • 14.1 时间序列的组成部分

  • 14.2 指数平滑

  • 14.3 Box—Jenkins方法:ARIMA模型

  • 14.4 小结

  • 14.5 习题

第十五章 总体分布未知时的检验:非参数检验方法

  • 15.1 关于非参数检验的一些常识

  • 15.2 单样本检验

  • 15.3 两独立样本检验

  • 15.4 关于多个独立样本的检验

  • 15.5 多个相关样本的检验

  • 15.6 列联表某一变量各水平比例的检验问题

  • 15.7 小结

  • 15.8 习题

第十六章 生存分析简介

  • 16.1 对生命数据的简单描述

  • 16.2 回归:Cox比例危险模型

  • 16.3 小结

  • 16.4 习题

第十七章 指数简介

  • 17.1 指数漫谈

  • 17.2 价格指数

  • 17.3 数量指数(生活标准指数

  • 17.4 总花费指数

  • 17.5 一两个常见的经济指数

  • 17.6 小结 321


喜欢闲适安静的生活,懂一点计算机编程,懂一点统计学和数据分析。(爱编程爱统计)**

相关推荐