我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

inabaraku

2018-01-30

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

编译：叶一、Shan LIU、Aileen

2017年是机器学习应用全面开花的一年，惊为天人的想法和项目层出不穷。我们对比了过去一年中近8800个开源机器学习项目，并挑选了其中较好的30个(Top 0.3%)列举于此。

这是一份极具竞争性的列表，它精挑细选了发表于2017年1月-12月份的机器学习库、数据集和应用类的优质项目。我们通过流行度、参与度和时近性来对其质量进行评级。有一项数据可以让你对表单质量有一个直观印象：这些项目的GitHub平均stars数是3558。

开源项目对于数据科学家而言是很有意义的。你可以通过阅读源代码，在前人的基础上构建更加强大的项目。你可以尽情尝试一下这些可能在去年与你失之交臂的机器学习项目。

No.1 - FastText：快速文本表示/分类库

GitHub stars数: 11786个

来源：Facebook研究

链接：https://github.com/facebookresearch/fastText

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

以及[Muse：基于FastText的多语言无监督/监督词嵌入(GitHub stars数：695个)https://github.com/facebookresearch/MUSE]

No.2- Deep-photo-styletransfer：康奈尔大学 Fujun Luan 论文《Deep Photo Style Transfer》的代码与数据

GitHub stars数：9747个

链接：https://github.com/luanfujun/deep-photo-styletransfer

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.3 - face recognition：世界上最简单的适用于Pyhthon的面部识别api以及命令行

GitHub stars数：8672个

来源：Adam Geitgey

链接：https://github.com/ageitgey/face_recognition

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.4 - Magenta：机器智能音乐与艺术生成器

GitHub stars数：8113

链接：https://github.com/tensorflow/magenta

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.5 - Sonnet：基于 TensorFlow 的神经网络库

GitHub stars数：5731个

来源：DeepMind 成员 Malcolm Reynolds

链接：https://github.com/deepmind/sonnet

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.6 - deeplearn.js：网页端硬件加速机器学习库

GitHub stars数：5462个

来源：Google Brain 团队 Nikhil Thorat

链接：https://github.com/PAIR-code/deeplearnjs

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.7 - Fast Style Transfer：TensorFlow 快速风格转换

GitHub stars数：4843个

来源：MIT的Logan Engstrom

链接：https://github.com/lengstrom/fast-style-transfer

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.8 - Pysc2：星际争霸II 学习环境

GitHub stars数：3683个

来源：DeepMind Timo Ewalds 等人

链接：https://github.com/deepmind/pysc2

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.9 - AirSim：微软AI和研究院出品的基于虚幻引擎的开源自动驾驶模拟器

GitHub stars数：3681个

来源：微软的Shital Shah

链接：https://github.com/Microsoft/AirSim

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.10 - Facets：机器学习数据集可视化工具

GitHub stars数：3371个

来源：Google Brain

链接：https://github.com/PAIR-code/facets

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.11 - Style2Paints：AI漫画线稿上色工具

GitHub stars数: 3310个

链接：https://github.com/lllyasviel/style2paints

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.12 - Tensor2Tensor：用于广义序列-序列模型的工具库

GitHub stars数目: 3087个

来源：Google Brain 的Ryan Sepassi

链接：https://github.com/tensorflow/tensor2tensor

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.13- 基于 PyTorch 的图像对图像转换工具 (如horse2zebra, edges2cats，等)

GitHub stars数：2847个

来源：UC Berkeley 朱俊彦博士

链接：https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.14 - Faiss：用密集向量高效相似性检索与聚类的工具库

GitHub stars数：2629个

来源：Facebook

链接：https://github.com/facebookresearch/faiss

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.15 Fashion-mnist：一个类似于 MNIST 的时尚产品数据集

GitHub stars数：2780个

来源：Zalando Tech 的 Han Xiao

链接：https://github.com/zalandoresearch/fashion-mnist

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.16 - ParlAI：适用于在各类公开的对话数据集上训练与评估AI模型的一个框架

GitHub stars数: 2578个

来源：Facebook Research的 Alexander Miller

链接：https://github.com/facebookresearch/ParlAI

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.17 Fairseq：序列到序列工具包

GitHub stars数: 2571个

来源：FAIR

链接：https://github.com/facebookresearch/fairseq

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.18 Pyro：使用 Python 和 PyTorch 进行深度通用概率编程

GitHub stars数: 2387个

来源：Uber AI Labs

链接：https://github.com/uber/pyro

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.19 iGAN：基于 GAN 的交互图像生成器

GitHub stars数: 2369个

链接：https://github.com/junyanz/iGAN

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.20 Deep-image-prior：使用神经网络进行图像恢复，然而无需学习过程

GitHub stars数: 2188个

来源：Skoltech 的 Dmitry Ulyanov博士

链接：https://github.com/DmitryUlyanov/deep-image-prior

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.21 Face_classification：基于 Keras CNN 模型与 OpenCV 的实时面部检测和表情/性别分类，训练与 fer2013/imdb 数据集

GitHub stars数: 1967个

链接：https://github.com/oarriaga/face_classification

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.22 Speech to Text WaveNet：使用 DeepMind 的 WaveNet 和 TensorFlow 构成的端到端句级英语语音识别

GitHub stars数: 1961个

来源： Kakao Brain 的 Namju Kim

链接：https://github.com/buriburisuri/speech-to-text-wavenet

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.23 StarGAN：用于多领域图像-图像转换的统一生成对抗网络

GitHub stars数: 1954个

来源：韩国大学的Yunjey Choi

链接：https://github.com/yunjey/StarGAN

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.24 MI-agents：Unity 机器学习智能体

GitHub stars数: 1658个

来源：深度学习 Unity3D 的Arthur Juliani

链接：https://github.com/Unity-Technologies/ml-agents

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.25 Deep Video Analytics：分布式可视化搜索和可视化数据分析平台

GitHub stars数: 1494个

来源：康奈尔大学的Akshay Bhat

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.26 OpenNMT：Torch 上的开源神经机器翻译

GitHub stars数：1490个

链接：https://github.com/OpenNMT/OpenNMT

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.27 Pix2PixHD：使用条件 GAN 合成和处理 2048×1024 分辨率的图像

GitHub stars数：1283个

来源：英伟达 AI 科学家 Ming-Yu Liu

链接：https://github.com/NVIDIA/pix2pixHD

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.28 Horovod：分布式 TensorFlow 训练框架

GitHub stars数：1188 个

来源：Uber 工程团队

链接：https://github.com/uber/horovod

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.29 AI-Blocks：强大而直观的 WYSIWYG 界面，可让任何人创建机器学习模型

GitHub stars数：899 个

链接：https://github.com/MrNothing/AI-Blocks

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

No.30 Voice Conversion with Non-Parallel Data：基于 TensorFlow 的深度神经网络语音转换(语音风格转换)

GitHub stars数：845个

来源：Kakao Brain人工智能研究团队的Dabi Ahn

链接：https://github.com/andabi/deep-voice-conversion

我们对比了GitHub上8800个开源机器学习项目，并选出了其中的Top30

来源：

机器学习开放源代码 fasttext

inabaraku

0 关注 0 粉丝 0 动态

相关推荐

LinkedIn开源Dagli，发布Java机器学习函数库

近年来，越来越多的优秀的机器学习工具不断涌现，如 TensorFlow、 PyTorch、 Caffee 和 CNTK、用于大规模数据的 Spark 和 Kubeflow，以及用于各种通用模型的 scikit-learn、 ML.NET 和最近的 Trip

lgblove 2020-11-16

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

苹果「一呼百应」的号召力在机器学习领域似乎也不例外。新版 Mac 推出还不到两周，谷歌就把专为 Mac 优化的 TensorFlow 版本做好了，训练速度最高提升到原来的 7 倍。对于开发者、工程师、科研工作者来说，Mac 一直是非常受欢迎的平台，也有人用

Micusd 2020-11-19

如何通过7个步骤构建机器学习模型

组织构建一个可行的、可靠的、敏捷的机器学习模型来简化操作和支持其业务计划需要耐心、准备以及毅力。部署和管理机器学习项目通常遵循相同的模式。对于许多组织来说，机器学习模型开发是一项新活动，但是在某种程度上已经建立了以数据为中心的项目构建方法。此外，这种方法由

人工智能 5评论 2020-11-19

机器学习新风暴：如何用ML模型预测房价？

从驾驶汽车到识别语音+翻译，机器学习通过软件预测变幻莫测的现实世界，正在人工智能领域掀起一场风暴。机器学习是教计算机系统使用反馈的旧数据进行预测的过程，基本上是训练计算机根据过去的数据预测未来的数据。机器学习大致分为两大类：监督学习和无监督学习。对此可以使

81510295 2020-11-17

关于机器学习管道需要了解什么?

企业高管经常将机器学习模型的黑盒性质视为一种神秘技术，他们通常认为，IT主管能够有效调动流程，并使模型表现良好。现实情况是，了解机器学习流程的基础知识可以使其流程和步骤变得不再神秘，而IT团队可以更好地管理对当今竞争激烈的商业环境至关重要的机器学习技术。机

jaybeat 5评论 2020-11-17

为什么所有的机器学习模型有90％从没有投入生产

公司不仅可以向数据科学家和机器学习工程师投入资金，还希望魔法能够实现。根据VentureBeat的报告，大约90%的机器学习模型从未投入生产。尽管十分之九的技术主管认为AI将成为下一次技术革命的核心，但AI的采用和部署仍具有增长的空间。为了帮助数据科学家发

flyfor0 12评论 2020-11-16

关于机器学习算法的16个技巧

您可能听说过瑞士军刀。如果没有，请看下面的图片。它包含许多刀片和工具。每个人都专门从事一项特定的任务。在某些情况下，不同的刀片可以完成相同的任务，但性能不同。我将机器学习算法视为瑞士军刀。性能可能会根据任务和数据的特征而变化。例如，对数损失是与所有分类算法

Pokemogo 8评论 2020-11-16

全面解读谷歌云人工智能如何为机器学习提供帮助

谷歌公司拥有行业规模最大的机器学习堆栈之一，目前以其Google Cloud AI和机器学习平台为中心。谷歌公司在数年前就开源了TensorFlow，但TensorFlow仍然是一个最成熟的、并且广泛引用的深度学习框架。同样，谷歌公司几年前将Kubern

Pokemogo 12评论 2020-11-16

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

人工智能如今已成为大街小巷的热议话题。企业为了吸引客户和目标用户，在生产产品、提供方案时总会使用机器学习、深度学习等花哨的词汇。但实际上，这些词汇绝不仅是“噱头”而已。科技大厂了解科技发展的主流趋势，且无法承担技术落后的风险，所以他们都已适应了此次计算机革

clong 12评论 2020-11-13

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

10个丰富自我的机器学习项目

机器学习项目有很大的发展潜力，最近大火的韩剧也出现了这个词语并且用很浪漫的说法解释了它。毕竟招聘者一般通过你拥有的技能来判断你的潜力。此外，确保所有数据集都呈现开放状态允许自由访问。很多机器学习课程将这个数据运用于教学目的，它可以预测人类的活动类别，这是一

ohbxiaoxin 6评论 2020-11-13

机器学习如何颠覆金融行业

在过去的十年中，金融行业采用了很多前所未有的尖端技术。金融科技初创厂商是智能手机、大数据、机器学习、区块链等新技术的早期采用者，被认为是被更传统的银行和金融机构所效仿的潮流引领者。机器学习和深度学习的最新进展确实推动了计算机视觉和自然语言处理的界限。Sta

Icevivian 8评论 2020-11-13

24个提高知识和技能极限的机器学习项目

数据科学项目为你提供了一种有前途的方式来启动你在该领域的职业。你不仅可以通过应用它来学习数据科学，还可以在自己的简历上展示一些项目！这是大多数人挣扎和错过的地方。另外，我们确保所有数据集都是开放的并且可以自由访问。它由中型和大型数据集组成，需要一些认真的模

EchoYY 12评论 2020-11-12

IT自动化和人工智能将在2021年走向何方？

随着IT自动化和人工智能技术的进步和发展，IT人员的工作方式发生了重大变化。今年发生的突如其来的新冠疫情，也迫使大多数组织的员工在家远程工作。如果疫情持续蔓延到2021年，那么组织将会继续让员工远程工作，并采用多种工作方式混合策略或鼓励永久性远程办公，因此

CSDN人工智能头条 5评论 2020-11-11

无监督机器学习的重要指南

人们如今正处在数字化转型时代，只有一个不变的因素——进化。而组织采用的高科技解决方案正在引入数字化转型。因此，毫不奇怪的是，技术进步已完全取代了平凡的业务。因此，人们需要了解无监督机器学习在各行业中的广泛应用。如果用户标记了可以作为示例的训练数据，人们将其

mogigo00 5评论 2020-11-11

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

在数据领域，很多人都在说机器学习，但是只有很少的人能说清楚怎么回事。网上关于机器学习的文章，大多都是充斥各种定理的厚重学术三部曲，或是关于人工智能、数据科学魔法以及未来工作的天花乱坠的故事。尽管数据分析实际工作中用到机器学习的机会真的不多，但我觉得它仍是数

jaybeat 8评论 2020-11-10

理解AI：为什么要在人工智能系统中寻求可解释性呢？

本文转载自公众号“读芯术”。或许这是你第一次听到人工智能前面加“可解释的”这个形容词，但其实它的涵义你一定能理解。可解释的人工智能是指构建AI应用程序的技术和方法，人们借此以理解它们做出特定决策的原因。换句话说，如果我们可以从AI系统获得有关其内部逻辑的解

白飞飞Alan 2020-11-11

机器学习的未来就在这里：高斯过程和神经网络是等价的

高斯进程已经存在了一段时间，但它只是在过去5-10年，有一个大的复苏，其兴趣。部分原因是求解的计算复杂：由于他们的模型需要矩阵反转，复杂性是 O，很难更快地获得。高斯过程最酷的特征之一是它们非常非常相似的神经网络。中央极限定理可以统一明显复杂的现象，在这

lemonade 12评论 2020-11-10

Python 用5行代码学机器学习—线性回归

我准备使用scikit-learn给大家介绍一些模型的基础知识，今天就来讲讲线性回归模型。开始之前，你要确保Python和pip已经成功安装在电脑上噢，如果没有，请访问这篇文章：超详细Python安装指南进行安装。如果你用Python的目的是数据分析，

机器学习之家 2020-11-10

微软和谷歌分别开源分布式深度学习框架，各自厉害在哪？

微软和谷歌一直在积极研究用于训练深度神经网络的新框架，并且在最近将各自的成果开源——微软的PipeDream和谷歌的GPipe。原则上看，他们都遵循了类似的原则来训练深度学习模型。这两个项目已在各自的研究论文中进行了详细介绍，这篇文章将对此进行总结。对于初

深圳克林斯曼 15评论 2020-11-09

inabaraku

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号