6个Github上极具挑战性的开源数据科学项目,你可以吗?
全文共2828字,预计学习时长9分钟
图源:Unsplash
除了日常工作之外,你上一次参加数据科学项目是什么时候呢?
小芯没有定期参加这类项目,对此深感内疚。
我们常常沦陷于职场生活,却忽略了对前沿知识的学习。
然而这一步却是至关重要的!数据和计算能力正面临着前所未有的发展机遇,现在数据科学是发展最快的行业之一。你没有理由不去了解所在领域的最新技术和框架,无论它是自然语言处理、计算机视觉还是别的内容。
而数据科学项目毫无疑问是了解、练习、应用这些最先进技术的最好方式。
为帮大家训练、调整自己的技能,小芯特别整理了6个极具挑战性且功能强大的开源数据科学项目。每个项目都提供了端到端代码,现在你就可以把它下载下来,测试并运用到电脑工作中去~
本文是理想的入门教程,千万不能错过哟。
综述
l 6个具有挑战性的开源数据科学项目,提高你的数据科学家技能
l 有趣的数据科学项目,包括如何应用深度学习模型,以及一种用来测量人工智能的不同方法等等
l 每个数据科学项目都带有端到端代码,下载一下就可以开始你的项目了!
这些是从GitHub平台上选出的6个数据科学项目(11月版)
开源深度学习项目
Kaolin——加快三维深度学习研究的PyTorch库
我还没有在三维深度学习方面进行很多的研究。这就是这个GitHub知识库如此吸引我的原因。三维深度学习能引发人们的好奇心,而且有着独一无二的潜能。想想吧——三维影像、地理空间分析、建筑等等——有这么多的数据点!
Kaolin是一种PyTorch库,旨在加快三维深度学习研究。PyTorch库让应用于深度学习系统的三维模块拥有更高的效率——相信这些资深业内人士都会对此感到满意。
Kaolin有很多功能,包括加载、预处理流行的三维数据集,评估、可视化三维结果等等。
为了帮助各位入门,开发人员策划了多种最先进的深度学习架构,这也是我特别欣赏Kaolin的一点。
产品级别的深度学习
将机器学习模型投入生产是一项艰巨的任务,大多数有抱负的数据科学家都没有为此做好准备。大多数课程都不教这方面的内容。相关的文章和博客也不多。但是,知道如何将模型投入生产是一项关键技能,任何一个组织都希望它的数据科学家拥有这项技能。
现在把深度学习模型提高一个等级。这是一项棘手而艰巨的任务。当然,你已经构建了一个强大的深度学习模型,但是接下来该做什么呢?如何将其呈现给终端用户?如何部署深度学习模型?
这个时候,产品级别的深度学习项目就有了用武之地。我们需要几种不同的组件来部署生产级别的深度学习系统。
我上面提到的GitHub知识库涵盖了软件工具集、框架,以及一套深度学习专家们遵循的最佳惯例。深度学习管道中的每一步都绘制了出来,而且进行了简要的总结,我确实很喜欢这种方式。未来无论什么时候,只要部署深度学习模型,我都会再次提到它。
用PyTorch实现三维KenBurns效果
深度学习把我们都变成了艺术家。不再需要昂贵的设备来编辑图像和视频,计算机视觉和类似于生成式对抗网络的技术让我们与创新只有几步之遥。
“KenBurns效果是一种平移、缩放效果,用于静止图像的视频制作。”
人工创建Ken Burns效果十分费时,而且非常复杂。现有的方法需要大量以不同角度拍摄的输入图像。这种做法不切实际。因此,开发人员在该项目中创建了“一种框架,该框架可从单一角度合成三维KenBurns效果,同时支持全自动模式和用户控制相机的交互模式。”
用PyTorch实现这种效果并不让人感到意外,对吗?你现在需要赶上PyTorch的潮流,充分利用它的潜能,让你的深度学习事业取得重大进步。
开源人工智能、自然语言处理以及其他的数据科学项目
Plato——腾讯的图标计算框架
近几年,图表已经成为了机器学习生命周期的重要环节。图表是一种分析数据、建立推荐系统、探索社交网络等等的高效方式。总之非常有用。
Plato是一种用于分布式图表计算和机器学习的框架,它是腾讯刚开发出来的,并进行了开源。Plato是最先进的框架,有着无比强大的计算能力。分析数以亿计的节点时,Plato可以将计算时间从几天减少到几分钟(这就是图表的强大之处!)。
因此,Plato仅需要十台服务器便能完成任务,而无需依赖数百台服务器。腾讯也将Plato用于微信平台(这么做是为了所有领悟力强的文本读者)。
以下分别是Plato和Spark GraphX有关PageRank和LPA benchmarks统计数据的图表:
Transformers v2.2——它有4种新的自然语言处理模型!
Huggingface是我在自然语言处理领域见过的最活跃的研究团队。官方开发人员宣布有关新产品和框架的消息之后,仅仅过了几个小时,他们好像就完成了任务——这太难以置信了。强烈建议大家在推特上关注Huggingface,这样可以跟进他们工作的最新动态。
最新版本是Transformersv2.2.0,该版本拥有四种新的自然语言处理模型(以及其他新功能):
l ALBERT(PyTorch和TensorFlow):BERT的精简版
l CamamBERT(PyTorch):一种法语模型
l GPT2-XL(PyTorch和TensorFlow):OpenAI的GPT-2迭代
l DistilRoberta(PyTorch和TensorFlow)
ARC——抽象推理语料库(以人工智能为基准)
这个项目与我通常在文章中提到的那些有一点不同。但考虑到我们尚与通用人工智能存在很远的距离,我认为这个项目十分重要。
抽象推理语料库,简称ARC,是一种通用人工智能基准,旨在模仿一种“与人类似的通用流体智能”。该思路和相关研究是由弗朗索瓦·肖莱提出并完成的,他构建了十分流行的Keras框架。
肖莱先生在题为《关于智能的度量》(On theMeasure of Intelligence)的研究论文中更新了智能的定义,该定义的提出以算法信息论为基础。他还提出了一套新的准则,用来展示通用人工智能基准应该是什么。而抽象推理语料库就是基于这套准则的基准。
我认为这个话题十分重要,它会引发许多争论。这是一件好事,从此将有望产生更多有关该话题的研究,可能还会为通用人工智能领域的发展带来一次飞跃。
图源:Unsplash
所以,哪一种开源项目深得你心呢?
留言点赞关注
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范