GitHub Python数据科学聚焦:推荐5个开源数据科学项目!

点击上方关注,All in AI中国

这篇文章重点介绍了5个数据科学项目,这些项目都是开源的,并且存在于GitHub存储库中,侧重于高级机器学习库和低级支持工具。

本文将通过GitHub repos重点介绍一组精选的开源Python数据科学项目。

之前的文章包括一些涵盖AutoML、自然语言处理、数据可视化、机器学习工作流程的库。这一次,我们将看看另一个选择的数据科学项目及其GitHub回购,重点关注那些在一端提供有用的抽象层的项目,以及那些在较低层次上支持活动的项目。

该列表显然是主观的,由我遇到的代码组成,并且由于某种原因而发现这些代码有趣或有用。对于每个条目,我都包含指向各自的回购、文档、入门指南或类似内容的链接,以及文档中的描述性摘录。

坐下来享受一下您可能熟悉或不熟悉的项目,希望您能找到可以在自己的工作中使用的东西。

GitHub Python数据科学聚焦:推荐5个开源数据科学项目!

1. fastai

存储库:https://github.com/fastai/fastai/

文档:http://docs.fast.ai/

入门:http://course.fast.ai/

该库位于PyTorch v1(今天发布的预览版)之上,为最重要的深度学习应用程序和数据类型提供了一致的API。fast.ai最近的研究突破嵌入在软件中,与其他深度学习库相比,其准确性和速度显著提高,同时需要的代码大大减少。您可以立即从conda、pip或GitHub上下载它,或在Google Cloud Platform上使用它。AWS支持即将推出。

2.textacy

存储库:https://github.com/chartbeat-labs/textacy

文档:https://chartbeat-labs.github.io/textacy/

入门:https://chartbeat-labs.github.io/textacy/getting_started/quickstart.html

textacy是一个Python库,用于执行基于高性能spacy库的各种自然语言处理(NLP)任务。通过基本原理- 标记化、词性标注、依赖性解析等- 委托给另一个库,textacy专注于之前和之后的任务。

3. pycobra

存储库:https://github.com/bhargavvader/pycobra

文档:https://modal.lille.inria.fr/pycobra/

入门:https://github.com/bhargavvader/pycobra/tree/master/docs/notebooks

pycobra是一个用于集成学习的python库。它可以作为使用这些集成机器进行回归和分类的工具包,也可以用于可视化新机器和组成机器的性能。在这里,当我们说机器时,我们指的是任何预测器或机器学习对象- 它可以是LASSO回归器,甚至是神经网络。它与scikit-learn兼容,适合现有的scikit-learn生态系统。

4. Termgraph

存储库,文档和入门:https://github.com/mkaz/termgraph

一个python命令行工具,它在终端中绘制基本图形。

支持的图表类型:

  • 条形图
  • 彩色图表
  • 多变量
  • 堆积图表
  • 水平或垂直
  • 表情符号!

大多数结果可以在任何地方复制和粘贴,因为它们使用标准块字符。但是颜色图表不会显示,因为它们使用终端转义码来表示颜色。

5.repo2docker

存储库:https://github.com/jupyter/repo2docker

文档:https://repo2docker.readthedocs.io/en/latest/

入门:https://repo2docker.readthedocs.io/en/latest/usage.html

jupyter-repo2docker是一个工具,用于从通过Jupyter服务器运行的源代码存储库构建,运行和推送Docker镜像。

repo2docker获取存储库(例如,从GitHub或其他位置)并基于存储库中找到配置文件构建容器映像。它可以用于通过构建和执行存储库的构建映像来本地浏览存储库,或者作为构建推送到Docker注册表的映像的方法。

GitHub Python数据科学聚焦:推荐5个开源数据科学项目!

相关推荐