2018年哪些开源AI项目将一路领跑?
弗雷斯特研究公司在2018年预测中预测,今年,“AI将重塑数据分析和企业创新”,“AI将帮20%的公司做出决定、提供实时指导。”不过该公司也提醒,“CIO们会在2018年认识到AI等新技术需要付出艰辛的工作。”
对许多企业组织来说,这艰辛的工作大部分需要先了解机器学习和人工智能框架。据Gartner声称,“59%的企业组织仍在收集信息以制定AI战略。”
这种信息收集大部分可能会紧紧围绕开源解决方案。市面上有许多领先的AI工具采用开源许可证,最前沿的研发大多数出现在这些开源项目上。
那么企业的IT经理应调查研究哪些开源AI解决方案?本文着重介绍了已变得极其流行的十大开源AI和机器学习工具。
1. TensorFlow
谷歌开发的TensorFlow已成为如今使用最广泛的机器学习框架之一。该项目的GitHub页面上有87700多颗星,分支次数超过了42700次。2017年GitHub Octoverse报告将这个开源AI工具列为分支最多的头号项目、贡献者数量方面的第五大项目和评论人数方面的第十大项目。
它尤其广泛用于基于云的应用,比如亚马逊网络服务、微软Azure和谷歌云平台都提供支持及/或与TensorFlow兼容的服务。据项目官网介绍,使用它的公司包括Airbnb、英伟达、优步、SAP、Dropbox、eBay、谷歌、英特尔、可口可乐、Twitter及其他许多公司。
相关链接:https://www.tensorflow.org/
2. Scikit-Learn
Scikit-learn 基于另外三个开源项目:NumPy、SciPy和matplotlibe,它是一种基于Python的机器学习工具,侧重数据挖掘和数据分析。它提供诸多算法:分类、递归、聚类、降维、模型选择和预处理。用户包括Spotify、Evernote、OKCupid、Change.org及其他许多公司。它开始是谷歌的Summer of Code项目,后续开发得到了几家组织的资助,包括法国国家信息与自动化研究所(INRIA)、巴黎-萨克雷数据科学中心、纽约大学、巴黎高等电信学院、哥伦比亚大学、Alfred P. Sloan基金会和悉尼大学。在GitHub上,它有25300多颗星和12900多个分支。
相关链接:http://scikit-learn.org/stable/
3. Caffe
Caffe是贾扬清的杰作,他在加州大学伯克利分校攻读博士学位期间开发了这个项目。伯克利人工智能研究中心(BAIR)现在处理日常开发工作。项目官网声称这是一种“开发当初着眼于表达式、速度和模块化的深度学习框架。”主要功能包括:表达式架构、可扩展代码、高速性能以及学术用户和行业用户组成的庞大社区。在GitHub上,该项目有22600多颗星和13800多个分支。
相关链接:http://caffe.berkeleyvision.org/
4. 微软认知工具包
微软认知工具包(之前名为CNTK)自称是“一种免费、易于使用、开源、商业级的工具包,可以训练深度学习算法,像人脑那样来学习”。这款AI解决方案是在微软内部开发出来的,微软在2016年发布了开源版。
这款工具的主要功能包括:支持Python、C++和BrainScript;强化学习、生成式对抗网络以及监督学习和无监督学习;高效使用资源;与NumPy协同运行;并与微软Azure集成。它在GitHub上有13700多颗星和3600多个分支。
相关链接:https://www.microsoft.com/en-us/cognitive-toolkit/
5. PredictionIO
Apache项目 PredictionIO是一种开源机器学习服务器系统,它充分利用了其他许多Apache大数据工具,比如Hadoop、HBase和Spark。企业组织常常用它来实施lambda架构,官网将它作为包括Apache Spark、MLlib、HBase、Spray和Elasticsearch的整个机器学习堆栈的一部分来提供。该项目的目的是帮助数据科学家和开发人员迅速创建可以作为一项Web服务来部署的预测引擎。GitHub页面显示有10900多颗星和1777多个分支。
相关链接:http://predictionio.incubator.apache.org/index.html
6. Deeplearn.js
顾名思义,deeplearn.js是一种面向深度学习的JavaScript库。它让用户可以在浏览器中训练神经网络。与本文介绍的另外几个开源AI项目一样,它同样源于谷歌Brain团队,谷歌继续在支持该项目。Deeplearn.js包括两套独立的API:类似NumPy的直接执行模型和更像TensorFlow的延迟执行模型。在GitHub上,它有6000多颗星和550多个分支。
相关链接:https://deeplearnjs.org/
7. Pattern
Pattern由安特卫普大学的计算语言学和语言心理学(CLiPS)研究中心开发。它提供诸多人工智能功能,包括数据挖掘、自然语言处理、机器学习、网络分析和可视化。它基于Python,随带50多个示例和350多个单元测试。GitHub用户对它标星了6000多次,分支了1100多次。
相关链接:https://www.clips.uantwerpen.be/pages/pattern
8. Turi Create
Turi Create旨在让不是专家的人不必编写大量代码,也能构建自己的机器学习模型。它适用于创建推荐引擎、图像分析工具和文本分类引擎,它包括众多方面的算法:分类、递归、图形分析、聚类、近邻、主题模型及更多。苹果最近(2017年12月)才在GitHub上发布了该工具,但已经备受关注,积聚了5700多颗星和490多个分支。
相关链接:https://github.com/apple/turicreate
9. Aerosolve
Aerosolve由Airbnb开发,这款人工智能工具尤其擅长处理地理数据。赖以成名的地方是,它是为“对人类友好”而设计的。主要功能包括:基于Thrift(Thrift 是Apache开发的多语言协作平台)的特征表示、特征转换语言、可调试模型、支持Java和Scala,还包括图像内容分析代码。在GitHub页面上,它有4200多颗星和550多个分支。
相关链接:http://airbnb.io/aerosolve/
10. DSSTNE
DSSTNE的全称是“深度可扩展稀疏张量网络引擎”,它由亚马逊开发。这家网上购物巨头用DSSTNE来构建自己的推荐引擎,该AI工具引起了其他零售商和网上企业的浓厚兴趣。其开发人员表示,它特别适合机器学习训练数据寥寥无几的使用场合。在GitHub上,它有4000多颗星和660多个分支。