推荐给每个人!高中数学基础即可看懂:《白话大数据与机器学习》
数据分析、机器学习和人工智能必读书目系列——《白话大数据与机器学习》
我们已经进入了全新的数据时代,大数据、云计算、物联网、机器学习、人工智能等等一系列技术纷至沓来,数据的管理和应用已经渗透到每一个行业和业务领域,成为当今以及未来商业运作的基础资产。可以说,只有掌握数据并善于运用数据的人,才会在竞争日益激烈的环境中寻得先机。 那么我们该怎么样学习大数据分析、机器学习以及人工智能?作者认为,学习大数据、机器学习和人工智能,所需的知识分为五个层次,一是数学知识;二是统计学知识;三是算法知识;四是工具知识;五是哲学思想知识。所谓工具知识,就是我们需要借助计算机软件来完成相关的分析和运算,目前大数据和机器学习领域热门的语言就是 R 和 Python。我们会分别介绍这五个层次所需要看的书,希望对大家有用。
《白话大数据与机器学习》
作者:高扬/卫峥/尹会生
页数: 330
出版:机械工业出版社 2016年版
简要评价:
是不是有很多大数据和机器学习的书,让你一看就心生恐惧。太多的概念、太过晦涩的表达、太过艰难的数学,让你陷入技术的细节而不自拔,不知道从何处开始。这本书以降低学习曲线为宗旨,有高中数学基础即可看懂,同时结合大量案例与漫画,将高度抽象的数学、算法与应用,与现实生活中的案例和事件一一做了关联,将源自生活的抽象还原出来,帮助读者理解后,又带领大家将这些抽象的规律与算法应用于实践,贴合读者需求。
正如作者所说:这是一本通俗易懂的大数据图书,这是一本轻松愉悦的数据挖掘与机器学习的读本,这是一本没有门槛的机器学习实战手册。
在内容方面,重点讲解了统计与概率、数据挖掘算法、实际应用案例、数据价值与变现以及高级拓展技能,清晰勾勒出大数据技术路线及产业蓝图。对于想学习大数据和机器学习的同学,可以通过这样的入门书迅速掌握大数据和机器学习中浩如烟海的各色概念,迅速掌握中重点,然后再有针对性的选择更加深入的学习。非常好的书籍,强烈推荐给每一个人看看!。
主要内容
大数据产业解读一一剖析产业情况,人才供需、职业选择与相应“武器”库;
步入大数据之门一一解读数据、信息、算法,以及与大数据应用的关系;
大数据基石一一结合大量示例和漫画,趣味讲解大数据算法应掌握的数学知识,无障碍学习;
大数据算法奥义——信息论、向量空间、回归、聚类、分类等最为核心的算法的释义与应用,举重若轻;
大数据热门应用——关联分析、用户画像、推荐算法、文本挖掘、人工神经网络等最实用、最需要了解的应用的原理与实现;
大数据主流框架一一介绍了主流的大数据框架(Hadoop、Spark和Cassandra);
系统架构与调优一一从速度与稳定性方面给出调优的一般性“内功心法”;
大数据价值与变现一一从运营指标、AB测试、大数据价值与变现场景多维度解读。
书籍目录
前言
前言
第1章 大数据产业
1.1 大数据产业现状
1.2 对大数据产业的理解
1.3 大数据人才
1.3.1 供需失衡
1.3.2 人才方向
1.3.3 环节和工具
1.3.4 门槛障碍
1.4 小结
第2章 步入数据之门
2.1 什么是数据
2.2 什么是信息
2.3 什么是算法
2.4 统计、概率和数据挖掘
2.5 什么是商业智能
2.6 小结
第3章 排列组合与古典概型
3.1 排列组合的概念
3.2 排列组合的应用示例
3.3 小结
第4章 统计与分布
4.1 加和值、平均值和标准差
4.2 加权均值
4.3 众数、中位数
4.4 欧氏距离
4.5 曼哈顿距离
4.6 同比和环比
4.7 抽样
4.8 高斯分布
4.9 泊松分布
4.10 伯努利分布
4.11 小结
第5章 指标
5.1 什么是指标
5.2 指标化运营
5.3 小结
第6章 信息论
6.1 信息的定
6.2 信息量
6.3 香农公式
6.4 熵
6.5 小结
第7章 多维向量空间
7.1 向量和维度
7.2 矩阵和矩阵计算
7.3 数据立方体
7.4 上卷和下钻
7.5 小结
*第8章 回归
8.1 线性回归
8.2 拟合
8.3 残差分析
8.4 过拟合
8.5 欠拟合
8.6 曲线拟合转化为线性拟合
8.7 小结
第9章 聚类
9.1 K-Means算法
9.2 有趣模式
9.3 孤立点
9.4 层次聚类
9.5 密度聚类
9.6 聚类评估
9.6.1 聚类趋势
9.6.2 簇数确定
9.6.3 测定聚类质量
9.7 小结
第10章 分类
10.1 朴素贝叶斯
10.2 决策树归纳
10.3 随机森林
10.4 隐马尔可夫模型
10.5 支持向量机SVM
10.6 遗传算法
10.7 小结
第11章 关联分析
11.1 频繁模式和Apriori算法
11.2 关联分析与相关性分析
11.3 稀有模式和负模式
11.4 小结
第12章 用户画像
12.1 标签
12.2 画像的方法
12.3 利用用户画像
12.4 小结
第13章 推荐算法
13.1 推荐思路
13.2 User-based CF
13.3 Item-based CF
13.4 优化问题 215
13.5 小结 217
第14章 文本挖掘
14.1 文本挖掘的领域
14.2 文本分类
14.3 小结
第15章 人工神经网络
15.1 人的神经网络
15.2 FANN库简介
15.3 常见的神经网络
15.4 BP神经网络
15.5 玻尔兹曼机
15.6 卷积神经网络
15.7 深度学习
15.8 小结
第16章 大数据框架简介
16.1 著名的大数据框架
16.2 Hadoop框架
16.3 Spark 框架
16.4 分布式列存储框架
16.5 PrestoDB——神奇的CLI
16.6 小结
第17章 系统架构和调优
17.1 速度——资源的配置
17.2 稳定——资源的可用
17.3 小结
第18章 数据解读与数据的价值
18.1 运营指标
18.2 AB测试
18.3 数据可视化
18.4 多维度——大数据的灵魂
18.5 数据变现的场景
18.6 小结
附录A VMware Workstation的安装
附录B CentOS虚拟机的安装方法
附录C Python语言简介
附录D Scikit-learn库简介
附录E FANN for Python安装
附录F 群众眼中的大数据
写作花絮 327
参考文献 329
喜欢闲适安静的生活,懂一点计算机编程,懂一点统计学和数据分析。(爱编程爱统计)