介绍UCI机器学习数据库的Python API

zhongjunlang

2018-12-29

关注关注

作者：Tirthajyoti Sarkar

翻译：王雨桐

校对：丁楠雅

本文约2600字，建议阅读9分钟。

本文将带你了解UCI数据库的Python API，通过实际案例拆解并讲解代码。

本文将介绍如何为UCI机器学习库引入一个简单直观的API。用户可以借此查看数据集描述，搜索感兴趣的数据集，甚至可以根据数据集大小或机器学习任务分类下载。

介绍

UCI机器学习库是机器学习领域的一个神器。对于初学者和进阶学习者来说，它就像一家商店。它将数据库、业务知识以及用于机器学习算法实证分析的数据生成器集中在一起。1987年，加州大学欧文分校的David Aha和他的学生以ftp档案的形式创建了该网站。从那时开始，全世界的学生、教育工作者和研究人员将其作为机器学习数据集的主要来源。作为文档影响的一个标志，它已被引用超过1000次，使其成为计算机科学中引用率最高的100篇“论文”之一。

附UCI链接：http://archive.ics.uci.edu/ml/index.php

介绍UCI机器学习数据库的Python API

相比之下，用户要操纵门户网站费时费力，因为感兴趣的数据集没有简单直观的API或下载链接，必须跳转多个页面才能转到目标数据所在的原始页面。此外，如果你对特定类型的机器学习任务（例如回归或分类）感兴趣并且想要下载与该任务相对应的所有数据集，很难通过简单的命令实现。

我很高兴能为UCI ML网站引入一个简单直观的API，用户可以轻松查找数据集描述，搜索他们感兴趣的特定数据集，甚至可以按大小或机器学习任务分类下载数据集。

从此处下载

这是一个由MIT授权的Python 3.6开源代码库，它提供了函数和方法，以便用户通过交互方式使用UCI ML数据集。以下Github页面可以下载/复制/分离代码库。

附Github：https://github.com/tirthajyoti/UCI-ML-API

所需要的包

运行此代码只需要以下三个广泛使用的Python包。为了便于安装这些支持包，setup.bash和setup.bat文件包含在我的repo中。只需在Linux / Windows shell中运行即可！

Pandas
Beautifulsoup 4
Requests

如何运行？

首先，确保你已连接到网络！然后，只需下载/克隆Github中的repo，确保安装了以上包。

git clone https://github.com/tirthajyoti/UCI-ML-API.git{your_local_directory}

然后转到已克隆Git的your_local_directory并在终端上运行以下命令。

python Main.py

随后将打开一个菜单，允许你执行各种任务。菜单的屏幕截图如下：

介绍UCI机器学习数据库的Python API

目前支持的特征和函数

以下是目前应用的特征（即上图中1-9）

1. 抓取整个网站以构建本地数据库，其中包括数据集名称，描述和URL。

2. 抓取整个网站以构建本地数据库，其中包括数据集名称，大小和机器学习任务。

3. 搜索并下载特定数据集。

4. 下载前几个数据集。

5. 显示所有数据集的名称。

6. 显示所有数据集的简要描述。

7. 搜索数据集的单行描述和网页链接（了解更多信息）。

8. 根据数据集大小下载数据集。

9. 根据与之关联的机器学习任务下载数据集。

案例（搜索并下载某个数据集）

例如，如果要下载著名的Iris数据集，只需从菜单中选择选项3，输入存储的本地数据库的名称（以便搜索更迅速）。就可以下载Iris数据集并将其存储在名为“Iris”的文件夹中！

介绍UCI机器学习数据库的Python API

案例（搜索包含关键词的数据集）

如果选择选项7，将使用关键字进行搜索，得到名称与搜索字符串匹配的所有数据集（甚至部分）的简短摘要。你还可以获得每个结果的网页链接，以便根据需要进一步探索数据。下面的屏幕截图是使用关键词Cancer进行搜索的结果。

介绍UCI机器学习数据库的Python API

如果你想另辟蹊径

如果你想避开这个简单的用户API，而使用基础函数，也是可行的。大致流程如下，首先导入必要的包。

from UCI_ML_Functions import *import pandas as pd

read_dataset_table()：从url读取数据集并进一步处理以便后续的数据清洗和分类。

url：https://archive.ics.uci.edu/ml/datasets.html

clean_dataset_table()：清洗原始数据集（数据框对象（DataFrame））并返回数据。处理后的数据删除了包含空缺值的观测。并且删除了“默认任务”列，该列用来显示与数据集关联的主机学习任务。

build_local_table(filename=None, msg_flag=True)：读取UCI ML网站并使用名称，大小，ML任务，数据类型等信息构建本地表。

filename :用户可以选择的文件名。如果未选择，则选择默认名称（'UCI table.csv'）
msg_flag：控制信息复杂度（verbosity）

build_dataset_list()：抓取UCI ML数据集页面的信息，并构建包含所有数据集信息的列表。

build_dataset_dictionary()：抓取UCI ML数据集页面的信息，并构建包含所有数据集名称和描述的字典(dictionary)。此外，还对应数据集生成了唯一标识符，下载器需要这个标识符字符串来下载数据文件。这种情况下，通用名称不起作用。

build_full_dataframe()：构建一个包含所有信息的数据框（DataFrame），包括用于下载数据的URL链接。

build_local_database(filename=None, msg_flag=True)：读取UCI ML网站并使用以下信息构建本地数据库：name，abstract，data page URL。

filename：可由用户选择的文件名。如果未选择，程序将选择默认名称（'UCI database.csv'）
msg_flag：控制信息复杂度（verbosity）

return_abstract(name,local_database=None,msg_flag=False)：通过搜索给定的名称，返回特定数据集的单行描述（以及更多信息的网页链接）。

local_database：本地存储的数据库名称（CSV文件），即在同一目录中，其中包含有关UCI ML repo上所有数据集的信息
msg_flag：控制信息复杂度（verbosity）

describe_all_dataset(msg_flag=False)：调用build_dataset_dictionary函数并显示所有数据集的描述。

print_all_datasets_names(msg_flag=False)：调用build_dataset_dictionary函数并显示所有数据集的名称。

extract_url_dataset(dataset,msg_flag=False)：给定数据集标识符，此函数提取实际原始数据所在页面的URL。

download_dataset_url(url,directory,msg_flag=False,download_flag=True)：从给定url中的链接下载所有文件。

msg_flag：控制信息复杂度（verbosity）
download_flag：默认为True。如果设置为False，则仅创建目录但不下载（用于测试目的）

download_datasets(num=10,local_database=None,msg_flag=True,download_flag=True)：下载数据集并将它们放在以数据集命名的本地目录中。默认情况下，仅下载前10个数据集。用户可以选择要下载的数据集数量。

msg_flag：控制信息复杂度（verbosity）
download_flag：默认为True。如果设置为False，则仅创建目录但不启动下载（用于测试目的）

download_dataset_name(name,local_database=None,msg_flag=True,download_flag=True)：根据下载指定名称的数据集。

local_database：本地存储的数据库名称（CSV文件），即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息
msg_flag：控制信息复杂度（verbosity）
download_flag：默认为True。如果设置为False，则仅创建目录但不启动下载（用于测试目的）

download_datasets_size(size='Small',local_database=None,local_table=None,msg_flag=False,download_flag=True)：下载满足'size'标准的所有数据集。

size：用户想要下载的数据集的大小。取值可以是以下任何一种：‘Small’, ‘Medium’, ‘Large’, ’Extra Large’。
local_database：本地存储的数据库名称（CSV文件），即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息。
local_table：本地存储的数据库名称（CSV文件），即在同一目录中包含关于UCI ML repo上所有数据集的特征信息，即样本数量以及数据集执行的机器学习任务类型。
msg_flag：控制信息复杂度（verbosity）。
download_flag：默认值为True。如果设置为False，则仅创建目录而不下载（用于测试目的）。

download_datasets_task(task='Classification',local_database=None,local_table=None,msg_flag=False,download_flag=True)：下载用户想要的所有符合ML任务标准的数据集。

task：用户想要下载数据集的机器学习任务。task取值可以是以下任何一种：'Classification', 'Recommender Systems', 'Regression', 'Other/Unknown', 'Clustering', 'Causal Discovery'
local_database：本地存储的数据库名称（CSV文件），即在同一目录中包含有关UCI ML存储库中所有数据集的名称和URL信息
local_table：本地存储的数据库名称（CSV文件），即在同一目录中包含关于UCI ML repo上所有数据集的特征信息，即样本数量以及数据集执行的机器学习任务类型
msg_flag：控制信息复杂度（verbosity）
download_flag：默认值为True。如果设置为False，则仅创建目录而不下载（用于测试目的）

原文标题：

Introducing a simple and intuitive Python API for UCI machine learning repository

原文链接：

https://www.codementor.io/tirthajyotisarkar/introducing-a-simple-and-intuitive-python-api-for-uci-machine-learning-repository-p8dfargnt

译者简介

介绍UCI机器学习数据库的Python API

王雨桐，UIUC统计学在读硕士，本科统计专业，目前专注于Coding技能的提升。理论到应用的转换中，敬畏数据，持续进化。

— 完 —

关注清华-青岛数据科学研究院官方微信公众平台“THU数据派”及姊妹号“数据派THU”获取更多讲座福利及优质内容。

机器学习 uci python uci数据库 api python机器学习 uci数据集 python算法数据库

安科网

介绍UCI机器学习数据库的Python API

zhongjunlang

zhongjunlang

相关推荐

Python 用5行代码学机器学习—线性回归

如果不能用Python执行机器学习，那该用什么呢？

关于机器学习管道需要了解什么?

这里有你需要的5个机器学习必备技能

在云端你需要的5个机器学习技能

用Python构建和可视化决策树

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

zhongjunlang