如果不能用Python执行机器学习，那该用什么呢？

mori

2020-11-06

本文转载自公众号“读芯术”(ID：AI_Discovery)

长期学习数据科学的人一定知道如何用Python、R和Julia这些语言执行机器学习任务。然而，如果速度很关键，但硬件很有限，或者所在公司仅使用SQL进行预测分析，又该怎么办呢?答案就是——数据库内的机器学习。

如果不能用Python执行机器学习，那该用什么呢？

本文使用的是Oracle Cloud。它是免费的，你可以注册并创建一个OLTP数据库 (19c版本，有0.2TB的存储空间)。完成之后，下载云钱包并通过SQL Developer或任何其他工具建立连接。这个过程至少要花费10分钟，但操作很简单，所以这里不多做赘述。

下面将使用Oracle机器学习(OML)在著名的Iris数据集中训练一个分类模型。选择它是因为无须任何准备，只需要创建表格并插入数据。

数据准备

如前所述，要创建一个表格来保存Iris数据集，然后将数据加载到其中。OML要求使用一个列作为行ID(序列)，因此要记住：

CREATE SEQUENCE seq_iris; 
CREATE TABLE iris_data( 
    iris_id      NUMBER DEFAULT seq_iris.NEXTVAL, 
    sepal_length NUMBER, 
    sepal_width  NUMBER, 
    petal_length NUMBER, 
    petal_width  NUMBER, 
    species      VARCHAR2(16) 
);

现在可以下载数据并进行加载了：

当一个模态窗口弹出时，只需提供下载CSV的路径并多次点击Next。SQL开发员无需帮助也能正确完成工作。

模型训练

现在可以动手做一些有趣的事情了。训练分类模型可以分解为多个步骤，例如训练/测试分割、模型训练和模型评估，我们从最简单的开始。

训练/测试分割

Oracle常用两个视图完成该步骤：一个用于训练数据，一个用于测试数据。可以轻松创建这些神奇PL/SQL：

BEGIN 
    EXECUTE IMMEDIATE  
        ‘CREATE OR REPLACE VIEW  
        iris_train_data AS  
        SELECT * FROM iris_data  
        SAMPLE (75) SEED (42)’; 
    EXECUTE IMMEDIATE  
        ‘CREATE OR REPLACE VIEW  
        iris_test_data AS  
        SELECT * FROM iris_data  
        MINUS  
        SELECT * FROM iris_train_data’; 
END; 
/

该脚本完成下列两件事：

创建一个训练视图-75%的数据 (SAMPLE (75)) 在随机种子42中分割( SEED (42))。
创建一个测试视图-区分整个数据集和训练视图

数据储存在叫做iris_train_data和iris_test_data的视图中，猜猜看它们分别存什么。

SELECT COUNT(*) FROM iris_train_data; 
>>> 111 
SELECT COUNT(*) FROM iris_test_data; 
>>> 39

模型训练

模型训练最简单的方法是无须创建额外的设置表格，只执行单一过程的DBMS_DATA_MINING包。使用决策树算法来训练模型。方法如下：

DECLARE  
    v_setlstDBMS_DATA_MINING.SETTING_LIST; 
BEGIN 
    v_setlst(‘PREP_AUTO’) := ‘ON’; 
    v_setlst(‘ALGO_NAME’) :=‘ALGO_DECISION_TREE’; 
  
    DBMS_DATA_MINING.CREATE_MODEL2( 
        ‘iris_clf_model’, 
        ‘CLASSIFICATION’, 
        ‘SELECT * FROM iris_train_data’, 
        v_setlst, 
        ‘iris_id’, 
        ‘species’ 
    ); 
END; 
/

CREATE_MODEL2过程接受多种参数。接着我们对进入的参数进行解释：

iris_clf_model — 只是模型名称，它可以是任何东西。
CLASSIFICATION — 正在进行的机器学习任务，因某种原因必须大写。
SELECT * FROM iris_train_data — 指定训练数据存储位置。
v_setlst — 模型的上述设置列表。
iris_id — 序列类型列的名称(每个值都是唯一的)。
species — 目标变量的名称(试图预测的东西)

执行这一模块需要一到两秒钟，执行完毕就可以开始计算了!

模型评价

使用该脚本评估此模型：

BEGIN 
    DBMS_DATA_MINING.APPLY( 
        ‘iris_clf_model’,  
        ‘iris_test_data’,  
        ‘iris_id’,  
        ‘iris_apply_result’ 
    ); 
END; 
/

它将iris_clf_model应用于不可见测试数据iris_test_data，并将评估结果存储到iris_apply_result表中。

行数更多(39×3)，但突显了要点。这还不够直观，所以下面以一种稍微不同的方式来展示结果：

DECLARE  
     CURSOR iris_ids IS  
         SELECT DISTINCT(iris_id) iris_id 
         FROM iris_apply_result  
         ORDER BY iris_id; 
     curr_y      VARCHAR2(16); 
     curr_yhat   VARCHAR2(16); 
     num_correct INTEGER := 0; 
     num_total   INTEGER := 0; 
BEGIN 
    FOR r_id IN iris_ids LOOP 
        BEGIN 
            EXECUTE IMMEDIATE  
                ‘SELECT species FROM  
                iris_test_data  
                WHERE iris_id = ‘ ||r_id.iris_id 
                INTO curr_y; 
            EXECUTE IMMEDIATE  
                ‘SELECT prediction  
                FROM iris_apply_result  
                WHERE iris_id = ‘ ||r_id.iris_id ||  
               ‘AND probability = ( 
                   SELECTMAX(probability)  
                       FROMiris_apply_result  
                       WHERE iris_id = ‘|| r_id.iris_id ||  
                   ‘)’ INTO curr_yhat; 
        END; 
  
        num_total := num_total + 1; 
        IF curr_y = curr_yhat THEN  
            num_correct := num_correct +1; 
        END IF;  
    END LOOP; 
  
    DBMS_OUTPUT.PUT_LINE(‘Num. testcases: ‘  
        || num_total); 
    DBMS_OUTPUT.PUT_LINE(‘Num. correct :‘  
        || num_correct); 
    DBMS_OUTPUT.PUT_LINE(‘Accuracy : ‘  
        || ROUND((num_correct /num_total), 2)); 
END; 
/

确实很多，但上述脚本不能再简化了。下面进行分解：

CURSOR—得到所有不同的iris_ids(因为iris_apply_results 表中有重复)。
curr_y, curr_yhat, num_correct, num_total 是存储每次迭代中的实际种类和预测种类、正确分类数量和测试项总数的变量。
对于每个唯一的iris_id 得到实际种类(来自匹配ID的iris_test_data)和预测种类(在 iris_apply_results 表中预测概率最高)
轻松检查实际值和预测值是否相同——这表明分类是正确的。
变量 num_total 和 num_correct 在每次迭代中更新。
最后，将模型性能打印到控制台。

下面为该脚本输出：

测试集有39个用例
39个样本中，正确分类的有37个
结果准确率为95%

以上就是模型评估的基本内容。

机器学习 python python机器学习

安科网

如果不能用Python执行机器学习，那该用什么呢？

mori

数据准备

模型训练

模型评价

mori

相关推荐

Python 用5行代码学机器学习—线性回归

关于机器学习管道需要了解什么?

这里有你需要的5个机器学习必备技能

在云端你需要的5个机器学习技能

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

关于机器学习算法的16个技巧

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

需要知识的后深度学习时代，如何高效自动构建知识图谱

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

机器学习概念和经典算法，我用大白话给你讲清楚了！入门必看

理解AI：为什么要在人工智能系统中寻求可解释性呢？

mori