机器学习库（MLlib）指南

xceman

2016-07-09

机器学习库（MLlib）指南

MLlib是Spark的机器学习（ML）库。旨在简化机器学习的工程实践工作，并方便扩展到更大规模。MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。

MLllib目前分为两个代码包：

<a style="text-decoration: underline; color: #00a19e;" href="http://spark.apache.org/docs/latest/mllib-guide.html#data-types-algorithms-and-utilities">spark.mllib</a> 包含基于RDD的原始算法API。
spark.ml 则提供了基于DataFrames 高层次的API，可以用来构建机器学习管道。

我们推荐您使用spark.ml，因为基于DataFrames的API更加的通用而且灵活。不过我们也会继续支持spark.mllib包。用户可以放心使用，spark.mllib还会持续地增加新的功能。不过开发者需要注意，如果新的算法能够适用于机器学习管道的概念，就应该将其放到spark.ml包中，如：特征提取器和转换器。

下面的列表列出了两个包的主要功能。

spark.mllib: 数据类型，算法以及工具

Data types（数据类型）
Basic statistics（基础统计）
- summary statistics（摘要统计）
- correlations（相关性）
- stratified sampling（分层抽样）
- hypothesis testing（假设检验）
- streaming significance testing
- random data generation（随机数据生成）
Classification and regression（分类和回归）
- linear models (SVMs, logistic regression, linear regression)（线性模型（SVM，逻辑回归，线性回归））
- naive Bayes（朴素贝叶斯）
- decision trees（决策树）
- ensembles of trees (Random Forests and Gradient-Boosted Trees)（树套装（随机森林和梯度提升决策树））
- isotonic regression（保序回归）
Collaborative filtering（协同过滤）
- alternating least squares (ALS)（交替最小二乘（ALS））
Clustering（聚类）
- k-means（K-均值）
- Gaussian mixture（高斯混合）
- power iteration clustering (PIC)（幂迭代聚类（PIC））
- latent Dirichlet allocation (LDA)（隐含狄利克雷分配）
- bisecting k-means（平分K-均值）
- streaming k-means（流式K-均值）
Dimensionality reduction（降维）
- singular value decomposition (SVD)（奇异值分解（SVD））
- principal component analysis (PCA)（主成分分析（PCA））
Feature extraction and transformation（特征抽取和转换）
Frequent pattern mining（频繁模式挖掘）
- FP-growth（FP-增长）
- association rules（关联规则）
- PrefixSpan（PrefixSpan）
Evaluation metrics（评价指标）
PMML model export（PMML模型导出）
Optimization (developer)（优化（开发者））
- stochastic gradient descent（随机梯度下降）
- limited-memory BFGS (L-BFGS)（有限的记忆BFGS（L-BFGS））

spark.ml: 机器学习管道高级API

Overview: estimators, transformers and pipelines（概览：评估器，转换器和管道）
Extracting, transforming and selecting features（抽取，转换和选取特征）
Classification and regression（分类和回归）
Clustering（聚类）
Advanced topics（高级主题）

虽然还有些降维技术在spark.ml中尚不可用，不过用户可以将spark.mllib中的的相关实现和spark.ml中的算法无缝地结合起来。

依赖项

MLlib使用的线性代数代码包是Breeze，而Breeze又依赖于 netlib-java 优化的数值处理。如果在运行时环境中这些原生库不可用，你将会收到一条警告，而后spark会使用纯JVM实现来替代之。

由于许可限制的原因，spark在默认情况下不会包含netlib-java的原生代理库。如果需要配置netlib-java/Breeze使用其系统优化库，你需要添加依赖项：com.github.fommil.netlib:all:1.1.2（或者在编译时加上参数：-Pnetlib-lgpl），然后再看一看 netlib-java 相应的安装文档。

要使用MLlib的Python接口，你需要安装NumPy 1.4以上的版本。

http://ifeve.com

机器学习 mllib line-height margin

安科网

机器学习库（MLlib）指南

xceman

机器学习库（MLlib）指南

spark.mllib: 数据类型，算法以及工具

spark.ml: 机器学习管道高级API

依赖项

xceman

相关推荐

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

机器学习的未来就在这里：高斯过程和神经网络是等价的

Python 用5行代码学机器学习—线性回归

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

xceman