错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

全文共3359字,预计学习时长7分钟

数据科学是一个不断发展的领域。一个合格的数据科学家,必须要了解社会中出现的最新算法和框架,而GitHub绝对称得上是宝藏。

作为这一领域极佳的知识渠道,GitHub可以帮助你了解趋势数据科学主题,提供优秀的代码。因此,对于以下类型的用户:

· 数据科学爱好者

· 机器学习从业者

· 数据科学管理者

· 深度学习专家

或者上述职业的任意综合,这篇文章绝对是值得一读的!另外,本文还挑选了五个与数据科学相关的Reddit深度讨论。理解数据科学专家思想的机会是很难得的,但Reddit让我们可以深入了解他们的思维过程,提高个人的知识和行业理解。

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

数据科学GitHub存储库

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

1. OpenAI开发的稀疏Sparse Transformer——极佳的NLP框架

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

这一年对于OpenAI的NLP研究来说是多么重要的一年啊!OpenAI在2月份发布GPT-2时引起了大众注意,现在已经提出了一个建立在流行的变换器架构之上的NLP框架。

稀疏变换器是一个深度神经网络,它可以预测序列中的下一个项目。这些项目包括文字/图像甚至音频!最初的结果是破纪录的。该算法使用注意机制(在深度学习中广泛使用)从序列中提取模式的时间比以前可能长30倍。

这非常引人注目对吧?该存储库包含此框架的稀疏注意力组件。用户可以立刻复制或下载存储库,并立即开始处理NLP序列预测问题,只需确保使用Google Colab及其提供的免费GPU。

2. 几行代码中的OpenAI的GPT-2

没错,就是OpenAI的GPT-2。在这之前,几乎没有数据科学库发布过如此大规模的宣传。他们只发布了原始模型的小部分样本代码(因为害怕恶意滥用),但即使是该算法的迷你版本也向我们展示了GPT-2处理NLP任务的强大功能。

有很多人尝试复制GPT-2的算法,但大多数算法都过于复杂或冗长。这是一个简单的Python程序包,允许我们在任何隐藏文本上重新训练GPT-2的文本生成模型。使用gpt2.generate()命令查看以下生成的文本:

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

直接通过pip安装GPT-2-simple (同时需要安装TensorFlow)

pip3 install gpt_2_simple

3. NeuronBlocks - 微软发布的令人印象深刻的NLP深度学习工具包

今年4月发布的另一个NLP条目,体现了NLP正以难以置信的速度发展。

NeuronBlocks是微软开发的NLP工具包,可帮助数据科学团队构建神经网络的端对端管道。NeuronBlocks的目的是降低为NLP任务构建深度神经网络模型所需的成本。

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

NeuronBlocks有两个主要组件(使用上图作为参考):

· BlockZoo:包含流行的神经网络组件

· ModelZoo:用于执行各种任务的NLP模型

需要了解应用深度学习解决方案的成本有多高,请务必查看NeuronBlocks,看看它是否适用于你。

4. CenterNet - 使用中心点检测的计算机视觉

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

这种对象检测方法真的很好。一般检测算法将对象识别为给定图像中的轴对齐框。这些方法查看多个对象点和位置,并对每个对象进行分类。这听起来很公平——所有人也都是这么做的对吧?

这种方法称为CenterNet,以对象建模为单点。基本上,它使用关键点估计来识别任何边界框的中心点。事实证明,CenterNet比我们熟悉的边界框技术更快、更准确。

下次在处理对象检测问题时可以使用该模型——非常好用!

5. BentoML - 部署模型的工具包!

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

每个数据科学家都必须理解和学习如何部署机器学习模型。事实上,在与数据科学家访谈期间,越来越多的招聘人员开始提出与部署模型相关的问题。如果你不知道它的话,赶紧去了解一下。

BentoML是一个Python库,可以帮助用户打包和部署机器学习模型。用户在大约5分钟内,就可以将模型从笔记本电脑带到生产API服务。BentoML服务可以便捷地与你喜欢的平台,例如Kubernetes、Docker、Airflow、AWS、Azure等一起部署。

这是一个灵活的数据库。它支持现下使用的框架,如TensorFlow、PyTorch、Sci-kit Learn、XGBoost等。甚至可以使用BentoML部署自定义框架。机不可失,失不再来!

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

数据科学Reddit讨论

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

(1)Tableau和Alteryx等工具在数据科学组织中起什么作用?

你是否在从事商业智能/MIS/报告工作?你会经常使用Tableau,Alteryx,Power BI等拖放和存置工具吗?

这个讨论主题由一位稍微沮丧的数据分析师发起,旨在深入研究数据分析师在数据科学项目中的作用。讨论的重点是数据分析师/ BI专业人员需要掌握的技能,以便有机会转向数据科学。

提示:学习怎么把程序编好是首要建议。

(2)从硕士学历转向行业的经验教训

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

Source: jobs.ie

招聘数据科学管理者最大的烦恼是候选人缺乏行业经验。事实证明,对于大部分数据科学爱好者来说,缩小学术界与行业之间的差距是难以捉摸的。MOOC、书籍、文章,这些都是很好的知识来源,但它们并没有提供行业曝光。

该帖作者引起的讨论是很好的资源。值得欣赏的一点是作者已经详细描述了他的面试经历。这些评论包括探讨有关这种转变的更多信息。

(3)当ML和数据科学导致好公司破产:一个警示的故事

你可以使用机器学习和人工智能来提高你的组织底线。这就是管理方面的领导,并且带来了投资。

但是,如果管理层不知道如何构建AI和ML解决方案时会发生什么?在考虑机器学习之前,是不是先投资建立基础设施?讨论中经常忽视这部分,而这对公司来说往往是致命的。

该讨论是关于一家公司是如何在使用旧的编程语言和工具的情况下,突然决定用华而不实的数据科学脚本和工具取代旧架构的。进入这个行业时,这个警示是你应该注意的。

(4)我们是否达到了深度强化学习的极限?

最近多个论坛上都出现过这个问题。这种想法可以理解。除了技术巨头每隔几个月取得一些突破外,深层强化学习仍未取得很大进展。

但这是真的吗?这真的是极限吗?我们尚未触及表面就已经到极限了吗?我们大多数人都觉得未来可期。该讨论在技术方面和整体宏观方案之间找到了正确的位置。

你也可以将从该讨论中吸取的经验教训应用到深度学习中。当谈话转向深度神经网络时,会看到两者的相似之处。

(5)数据科学家在日常工作中做了什么?

有没有想过数据科学家一天中大部分时间都在忙什么?大多数有抱负的专业人士认为他们会一直建立模型。这是个必须要避免的陷阱,哪怕不惜一切代价。

讨论中的第一条评论将数据科学家比作成为律师。也就是说,根据你所在的域名,会有不同类型的角色。因此,这个问题没有直接答案。

其他评论为数据科学家目前所做的工作提供了一个很好的视角。简而言之,许多任务完全取决于你拥有的项目类型和团队规模。

错过这5个GitHub项目和Reddit讨论,你可能要后悔整年

留言 点赞 关注

我们一起分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

相关推荐