6个Github上极具挑战性的开源数据科学项目，你可以吗？

szu周南光

2019-12-23

全文共2828字，预计学习时长9分钟

6个Github上极具挑战性的开源数据科学项目，你可以吗？

图源：Unsplash

除了日常工作之外，你上一次参加数据科学项目是什么时候呢？

小芯没有定期参加这类项目，对此深感内疚。

我们常常沦陷于职场生活，却忽略了对前沿知识的学习。

然而这一步却是至关重要的！数据和计算能力正面临着前所未有的发展机遇，现在数据科学是发展最快的行业之一。你没有理由不去了解所在领域的最新技术和框架，无论它是自然语言处理、计算机视觉还是别的内容。

而数据科学项目毫无疑问是了解、练习、应用这些最先进技术的最好方式。

为帮大家训练、调整自己的技能，小芯特别整理了6个极具挑战性且功能强大的开源数据科学项目。每个项目都提供了端到端代码，现在你就可以把它下载下来，测试并运用到电脑工作中去~

本文是理想的入门教程，千万不能错过哟。

6个Github上极具挑战性的开源数据科学项目，你可以吗？

综述

l 6个具有挑战性的开源数据科学项目，提高你的数据科学家技能

l 有趣的数据科学项目，包括如何应用深度学习模型，以及一种用来测量人工智能的不同方法等等

l 每个数据科学项目都带有端到端代码，下载一下就可以开始你的项目了！

这些是从GitHub平台上选出的6个数据科学项目（11月版）

6个Github上极具挑战性的开源数据科学项目，你可以吗？

开源深度学习项目

Kaolin——加快三维深度学习研究的PyTorch库

我还没有在三维深度学习方面进行很多的研究。这就是这个GitHub知识库如此吸引我的原因。三维深度学习能引发人们的好奇心，而且有着独一无二的潜能。想想吧——三维影像、地理空间分析、建筑等等——有这么多的数据点！

Kaolin是一种PyTorch库，旨在加快三维深度学习研究。PyTorch库让应用于深度学习系统的三维模块拥有更高的效率——相信这些资深业内人士都会对此感到满意。

6个Github上极具挑战性的开源数据科学项目，你可以吗？

Kaolin有很多功能，包括加载、预处理流行的三维数据集，评估、可视化三维结果等等。

为了帮助各位入门，开发人员策划了多种最先进的深度学习架构，这也是我特别欣赏Kaolin的一点。

产品级别的深度学习

将机器学习模型投入生产是一项艰巨的任务，大多数有抱负的数据科学家都没有为此做好准备。大多数课程都不教这方面的内容。相关的文章和博客也不多。但是，知道如何将模型投入生产是一项关键技能，任何一个组织都希望它的数据科学家拥有这项技能。

现在把深度学习模型提高一个等级。这是一项棘手而艰巨的任务。当然，你已经构建了一个强大的深度学习模型，但是接下来该做什么呢？如何将其呈现给终端用户？如何部署深度学习模型？

这个时候，产品级别的深度学习项目就有了用武之地。我们需要几种不同的组件来部署生产级别的深度学习系统。

6个Github上极具挑战性的开源数据科学项目，你可以吗？

我上面提到的GitHub知识库涵盖了软件工具集、框架，以及一套深度学习专家们遵循的最佳惯例。深度学习管道中的每一步都绘制了出来，而且进行了简要的总结，我确实很喜欢这种方式。未来无论什么时候，只要部署深度学习模型，我都会再次提到它。

用PyTorch实现三维KenBurns效果

深度学习把我们都变成了艺术家。不再需要昂贵的设备来编辑图像和视频，计算机视觉和类似于生成式对抗网络的技术让我们与创新只有几步之遥。

“KenBurns效果是一种平移、缩放效果，用于静止图像的视频制作。”

人工创建Ken Burns效果十分费时，而且非常复杂。现有的方法需要大量以不同角度拍摄的输入图像。这种做法不切实际。因此，开发人员在该项目中创建了“一种框架，该框架可从单一角度合成三维KenBurns效果，同时支持全自动模式和用户控制相机的交互模式。”

6个Github上极具挑战性的开源数据科学项目，你可以吗？

用PyTorch实现这种效果并不让人感到意外，对吗？你现在需要赶上PyTorch的潮流，充分利用它的潜能，让你的深度学习事业取得重大进步。

开源人工智能、自然语言处理以及其他的数据科学项目

Plato——腾讯的图标计算框架

近几年，图表已经成为了机器学习生命周期的重要环节。图表是一种分析数据、建立推荐系统、探索社交网络等等的高效方式。总之非常有用。

Plato是一种用于分布式图表计算和机器学习的框架，它是腾讯刚开发出来的，并进行了开源。Plato是最先进的框架，有着无比强大的计算能力。分析数以亿计的节点时，Plato可以将计算时间从几天减少到几分钟（这就是图表的强大之处！）。

因此，Plato仅需要十台服务器便能完成任务，而无需依赖数百台服务器。腾讯也将Plato用于微信平台（这么做是为了所有领悟力强的文本读者）。

以下分别是Plato和Spark GraphX有关PageRank和LPA benchmarks统计数据的图表：

6个Github上极具挑战性的开源数据科学项目，你可以吗？

Transformers v2.2——它有4种新的自然语言处理模型！

Huggingface是我在自然语言处理领域见过的最活跃的研究团队。官方开发人员宣布有关新产品和框架的消息之后，仅仅过了几个小时，他们好像就完成了任务——这太难以置信了。强烈建议大家在推特上关注Huggingface，这样可以跟进他们工作的最新动态。

6个Github上极具挑战性的开源数据科学项目，你可以吗？

最新版本是Transformersv2.2.0，该版本拥有四种新的自然语言处理模型（以及其他新功能）：

l ALBERT（PyTorch和TensorFlow）：BERT的精简版

l CamamBERT（PyTorch）：一种法语模型

l GPT2-XL（PyTorch和TensorFlow）：OpenAI的GPT-2迭代

l DistilRoberta（PyTorch和TensorFlow）

ARC——抽象推理语料库（以人工智能为基准）

这个项目与我通常在文章中提到的那些有一点不同。但考虑到我们尚与通用人工智能存在很远的距离，我认为这个项目十分重要。

抽象推理语料库，简称ARC，是一种通用人工智能基准，旨在模仿一种“与人类似的通用流体智能”。该思路和相关研究是由弗朗索瓦·肖莱提出并完成的，他构建了十分流行的Keras框架。

6个Github上极具挑战性的开源数据科学项目，你可以吗？

肖莱先生在题为《关于智能的度量》（On theMeasure of Intelligence）的研究论文中更新了智能的定义，该定义的提出以算法信息论为基础。他还提出了一套新的准则，用来展示通用人工智能基准应该是什么。而抽象推理语料库就是基于这套准则的基准。

我认为这个话题十分重要，它会引发许多争论。这是一件好事，从此将有望产生更多有关该话题的研究，可能还会为通用人工智能领域的发展带来一次飞跃。

6个Github上极具挑战性的开源数据科学项目，你可以吗？

图源：Unsplash

所以，哪一种开源项目深得你心呢？

6个Github上极具挑战性的开源数据科学项目，你可以吗？

留言点赞关注

我们一起分享AI学习与发展的干货

如转载，请后台留言，遵守转载规范

大数据开放源代码

szu周南光

0 关注 0 粉丝 0 动态

相关推荐

docker容器与宿主机的数据交互方式总结

在生产环境中使用 Docker ，往往需要对数据进行持久化，或者需要在多个容器之间进行数据共享，这必然涉及容器的数据管理操作。docker cp :用于容器与主机之间的数据拷贝。当删除Docker容器，并通过该镜像重新启动时，之前的更改将会丢失。在Dock

yangkang 2020-11-09

分布式文档存储数据库之MongoDB备份与恢复的实践详解

　　为什么要备份？　　备份的目的是对数据做冗余的一种方式，它能够让我们在某种情况下保证最少数据的丢失；之前我们对mongodb做副本集也是对数据做冗余，但是这种在副本集上做数据冗余仅仅是针对系统故障或服务异常等一些非人为的故障发生时，保证数据服务的可用性；

lbyd0 2020-11-17

分布式文档存储数据库之MongoDB分片集群的问题

　　1、什么是分片？比如用户要查询年龄大于30的用户，该怎么查询呢？而年龄大于30的用户的数据，可能server1上有一部分数据，server2上有部分数据，我们怎么才能够把所有满足条件的数据全部查询到呢？

sushuanglei 5评论 2020-11-12

详解Vue数据驱动原理

Vue区别于传统的JS库，例如JQuery，其中一个最大的特点就是不用手动去操作DOM，只需要对数据进行变更之后，视图也会随之更新。比如你想修改div#app里的内容:. 在代码层面上的最大区别就是，JQuery直接对DOM进行了操作，而Vue则对数据进行

85477104 13评论 2020-11-17

vue+echarts+datav大屏数据展示及实现中国地图省市县下钻功能

随着前端技术的飞速发展，大数据时代的来临，我们在开发项目时越来越多的客户会要求我们做一个数据展示的大屏，可以直观的展示用户想要的数据，同时炫酷的界面也会深受客户的喜欢。大屏展示其实就是一堆的图表能够让人一目了然地看到该系统下的一些基本数据信息的汇总，也会有

KANSYOUKYOU 2020-11-16

THINKPHP5分页数据对象处理过程解析

在用到THINKPHP5的分页的时候，我们可以发现获取的数据是对象，如果我们要对数据进行循环增加数据就实现不了。V5.0.9版本开始支持分页类后数据直接each遍历处理，方便修改分页后的数据，而不是只能通过模型的获取器来补充字段。

wushengyong 2020-10-28

需要知识的后深度学习时代，如何高效自动构建知识图谱

前沿的知识图谱自动构建技术有哪些？这篇文章将逐一解答这些问题。二者展示的信息量是差不多的，但右边这种看起来更加直观。而且，随着文本篇幅的增长，这种优势会体现得更加明显。其中，图的节点代表现实世界中存在的“实体”，图的边则代表实体之间的“关系”。基于知识图谱

lizhengjava 12评论 2020-11-13

人工智能技术如何落地交通出行？

在城市交通领域，有AI红绿灯控制，街道交通智能监测、智能公交车站，以及智能高速，这些领域都已经渗透了人工智能。围绕自动驾驶和车路协同也已经在全国多个地区进入商用测试阶段。那么日常还有哪些出行场景是应用到了AI技术的呢?大大降低了人工运营维护成本，人工审核降

星月情缘 11评论 2020-11-13

将云技术带入数据中心-走向数据驱动型业务的旅程

COVID-19产生的大量数据正在为企业创造新的增长机会，但拥有合适的基础设施对于有效应对这场数据风暴至关重要。Gartner最近警告说：“数据和分析领导者必须为多云和跨云部署的复杂性做好准备，以避免潜在的性能问题、计划外的成本超支和集成工作中的困难”。负

huangxiaoyun00 9评论 2020-11-13

联想持续发力智能物联，构建新基建时代下的行业新引擎

联想Tech World 2020创新科技大会于今日开幕。

zhoushuntian 15评论 2020-11-09

数据科学面试中应了解的十种机器学习概念

如您本文转载自公众号“读芯术”。如您所知，数据科学和机器学习必须提供无穷无尽的信息和知识。话虽如此，大多数公司都只测试少数核心思想。这是因为这十个概念是更复杂的思想和概念的基础。您可能想知道为什么我什至不愿意将其放入，因为它是如此的基础。换句话说，更加重视

luyong0 12评论 2020-11-08

Forrester发布全栈公有云开发平台报告，腾讯云再次入选领导者象限

今日获悉，国际领先行业咨询机构Forrester发布《2020年Q4中国全栈公有云开发平台Wave报告》显示，腾讯云再次入选公有云开发平台领导者象限。在2018年同主题报告中，腾讯云也曾入选。本次报告通过33项评估标准，针对中国市场最具代表性的12个厂商进

腾讯soso团队 2020-11-06

雾计算在物联网中的应用

雾计算是指一种分散的计算结构。资源被放置在数据源和云之间的逻辑位置。雾计算的优点之一是可以在同一时间上维持多用户连接的状态。本质上，它提供了与基于云的解决方案相同的网络和服务，但是它增加了分散网络的安全性。随着物联网的发展，越来越多的设备被添加到网络中。据

Apsaravod 2020-11-05

AI格局正在从“数据”转变为“知识”

半个多世纪以前就引发了人工智能革命。我们看到的最常见的AI业务策略是围绕数据构建的。我们认为专有数据是AI公司目前很具战略意义的护城河，但在未来几年中，专有数据将不再是一种独特的资产，从而使专有数据差异化的可持续性降低。因此，我们希望重点从基于数据的AI策

PeterChangyb 2020-11-05

SAP AMDP介绍 - ABAP托管的HANA数据库过程

最近Jerry的处境可以用本世纪初，八零后刚上大学时校园内风靡的一款FPS游戏名称来形容: 《半条命》. 为了避免让汪子熙这个公众号成为神经外科前中颅底亚专业医学知识的普及号，咱们还是继续聊SAP技术吧。随着ABAP 7.40 SP05的发布，SAP AB

gaobudong 15评论 2020-11-04

数据骗子无处不在，教你拆穿所谓“万金油”

数据分析师、机器学习/人工智能工程师、统计学家，这样的头衔是不是听起来很高大上?但小心别被骗了!高薪诱惑之下，不少数据骗子也隐藏在其中，这些骗子毁了遵纪守法的数据专业人士的好名声。第一点线索就是，他们无法理解分析学和统计学是两个截然不同的学科。这样的p值没

wwwjun 15评论 2020-11-02

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中的数据偏差是一种错误，其中数据集的某些元素的权重和/或表示程度高于其他元素。偏置数据集不能准确表示模型的用例，从而导致结果偏斜、精度低和分析错误。通常，机器学习项目的培训数据必须代表现实世界。数据偏差可能发生在一系列领域，从人类报告和选择偏差到算

gyunwh 2020-11-02

机器学习中处理缺失值的9种方法

它是任何数据科学或机器学习项目的关键。在大多数情况下，当我们从不同的资源收集数据或从某处下载数据时，几乎有95%的可能性我们的数据中包含缺失的值。我们不能对包含缺失值的数据进行分析或训练机器学习模型。这就是为什么我们90%的时间都花在数据预处理上的主要原因

EchoYY 14评论 2020-10-31

人工智能和机器学习如何从物联网数据中提取关键见解

过去几年，围绕物联网的大部分讨论都集中在连网设备本身——它们是什么、有多少以及如何保护它们。虽然所有这些小端点都很重要，但在物联网中更重要的是这些设备所生成的大量数据，以及通过分析可以从中获得的业务见解。这些缺点在物联网环境中更加严重，在物联网环境中，大量

dingyahui 14评论 2020-10-30

IT打工人，AI来“抢”你饭碗了！这次从数据中心下手

ningwentao 14评论 2020-10-30

szu周南光

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号