看看这些鲜为人知的宝藏Python数据科学包吧

sayhaha

2020-07-03

本文转载自公众号“读芯术”(ID：AI_Discovery)

动态数据科学的这三剑客几乎无人不知无人不晓：Numpy，Pandas和Matplotlib。你可能已经熟悉这些包以及它们的运作方式。

还有其他很炫酷的包，你肯定也想试一试，例如Plotly，Seaborne，Scikit-Learn，Tensorflow和Pytorch等等。它们都很好，还有数百万个用于Python机器学习的软件包，其中有些未受到重视，甚至有些完全不为人知的!

本文就带大家认识一下这些沧海遗珠。

1.Gleam

Gleam可能很多人没有听说过，它是一个很棒的工具，用于创建带有页面、面板和按钮的交互式可视化项目。这些交互式Web可视化也完全与Web集成在一起，这意味着可以将它们放到网站到端点的任何地方。Gleam使用wtforms进行交互，可以使用任何的不同可视化工具来实际显示数据。

如果想要一个很酷的交互式窗格，基本上可以使用任何图形库，那么Gleam是你的优秀选择。

2.Table

放着pandas不用，为什么要去用Table呢?这当然是一个可行的方法。Table包使得该列表轻松成为pandas的轻量级替代品，使用Table.py读取庞大的数据集要比使用Pandas.py容易得多。总体而言，在某些情况下它可能更合适。

import pandas as pd

3.Mlpy

Mlpy为监督和无监督学习提供了大量比较先进的机器学习方法。与同类产品不同，它旨在为数据科学提供一种多合一的方法。虽然有点过时，但对于快速增长的Python机器学习包来说无疑是一个很好的起步，它的易用性、有趣的算法和包容性是比较大的亮点。

Mlpy试图创建一种能平衡重现性、模块化和效率的包。该包在这方面取得了成功，因为尽管许多同类包的更新频率更高，而且肯定是行业标准，但许多此类想法似乎在编译中丢失了。因为这些都是由成千上万的开发人员以C语言编写的庞大的包，但这可能也是使用它们的缺点所在。

4.Shogun

Shogun是一个用C++编写的机器学习库，恰巧拥有Python端口。Shogun的一大优点是，它可用于多种不同的编程语言，并且相对统一。学习Shogun，你可以将所学知识应用于支持的任何其他语言。

Shortgun拥有广泛的前沿机器学习算法，它也是开源的，并且根据GNU(自由软件基金会)通用许可发行，这是一个加分项。

5.OpenCV

OpenCV最初是由Intel开发的。尽管是Intel的独家包，但它是开源的，并根据FreeBSD许可证发布。OpenCV非常优秀的一点是，它着重于实时计算机视觉，与Shogun一样，OpenCV最初是用C++编写的，但是具有Python和其他语言的接口。

说实话，这五个包还不够普及，对它们的评价也很鲜见。这些软件包确实很酷，但可以肯定，还有数百个甚至数千个其他很酷的模块可以添加到Pip环境中，这些模块也很棒却鲜为人知。