从构建到再训练的机器学习模式之旅,原来是这样的!
本文是我们解决方案教程的摘录,它将引导你完成构建预测性机器学习模型的过程,将其部署为应用程序中使用的API,测试模型并使用反馈数据重新训练模型。所有这些都发生在IBM Cloud上的集成和统一自助服务体验中。
在这篇文章中,我们会用著名的鸢尾花数据集创建一个机器学习模型来分类花的种类。
在机器学习的术语中,分类被认为是监督式学习的一个实例,即在正确识别的观察的训练集可用的情况下学习。
将数据导入到项目
一个项目就是如何组织你的资源以实现沃森数据平台中的特定目标。你的项目资源可以包括数据、协作者和Jupyter笔记本、机器学习模型等分析工具。
你可以创建一个项目来添加数据并在数据精简器中打开数据资产以清理和修改数据。
创建一个项目:
1.转至IBM Cloud目录并选择数据科学的经验数据和分析部分创建服务,点击开始按钮启动Data Science Experience仪表板。
2.创建一个新项目(项目>所有项目>新项目)。为项目添加一个名称,说明iris_project和可选描述。
3.由于没有任何机密数据,保留对协作者复选框的限制。
4.在定义存储下,单击添加并选择一个现有对象存储服务或创建一个新服务(选择Lite计划>创建)。单击Refresh查看创建的服务。
5.在定义计算引擎下,单击添加并选择现有的Spark服务或创建一个新服务。
6.点击创建。就可以打开你的新项目,同时可以开始向其添加资源。
导入数据:
如前所述,你将使用Iris数据集。 Iris数据集用于R.A.费希尔经典的1936年论文“在分类学问题中使用多重测量”,也可以在UCI机器学习存储库中找到。这个小数据集经常用于测试机器学习算法和可视化。目的是根据萼片和花瓣的长度和宽度的测量结果将鸢尾花分为三种(Setosa,Versicolor或Virginica)。iris数据集包含3个类,每个类50个实例,其中每个类指的是一种虹膜植物。
下载iris_initial.csv,它包含每个类的40个实例,你将使用每个类的其余10个实例来重新训练你的模型。
1.在项目中的资产下,单击查找和添加数据图标。
2.在载入下,单击浏览并上传下载的iris_initial.csv。
3.添加后,你应该在项目的数据资产部分看到iris_initial.csv。点击名称查看数据集的内容。
建立一个机器学习模型
1.返回资产概览,在模型下点击新模型。在对话框中,添加iris-model作为名称和可选描述。
2.在机器学习服务部分下,单击关联机器学习服务实例以将机器学习服务(Lite计划)绑定到你的项目。点击重新加载。
3.选择“模型”构建器作为模型类型,选择“手动”以手动创建模型。点击创建。
对于自动方法,完全依赖自动数据准备(ADP)。对于手动方法,除了由ADP变压器处理的一些功能外,你还可以添加和配置你自己的估算器,这是分析中使用的算法。
4.在下一页上,选择iris_initial.csv作为你的数据集,然后单击下一步。
5.在选择技术页面上,根据添加的数据集,预先填充标签列和特征列。选择物种(字符串)作为你的标签列和petal_length(十进制)和petal_width(十进制)作为你的特征列。
6.选择多类分类作为你的建议技术。
7.对于验证拆分,请配置以下设置:
·训练:50%
·测试:25%
·释放:25%
8.单击添加估算器并选择决策树分类器,然后添加。
你可以一次评估多个估算器。例如,你可以添加决策树分类器和随机森林分类器作为估算器来训练你的模型,并根据评估输出选择最佳拟合。
9.单击下一步以训练模型。一旦你将状态视为“受过训练和评估”,请点击保存。
10.点击Overview查看模型的详细信息。
你的旅程不会在此停止。按照以下步骤,你会将模型部署为API,通过创建反馈数据连接对其进行测试并重新训练。
·部署模型并尝试API
·测试你的模型
·创建一个反馈数据连接
·重新训练你的模型