轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

机器学习实验部署和调度

(本文数据为虚构,仅供实验。本实验拟在介绍阿里云机器学习与大数据开发调度的配合。)

一、背景

本文实现的场景是广告的CTR预测。广告CTR预测是广告行业的典型应用,通过历史数据训练预测模型,对于每天的增量数据进行预测,找出广告的CTR符合标准的样本进行投放。

整套实验使用了阿里云机器学习进行数据挖掘工作,通过大数据开发套件进行调度和推送。具体的业务场景是:通过历史数据在阿里云机器学习平台上面训练模型,通过大数据开发进行调度,每天凌晨对于每天的广告投放CTR预测,甄选出符合标准的广告推送出去。

二、数据集介绍

具体字段如下:

字段名含义类型描述
idIDstring广告的唯一标识
age年龄double广告投放人群的年龄
sex性别double广告投放人群的性别,1是男,0是女
duration时长double广告在界面的停留时长,以秒为单位
place位置double广告投放位置,0~4,按照投放位置从上到下的顺序排列
ctr广告CTRdouble广告点击量除以展现量,这里面大于0.03是1,其它是0
dtpartitionstring年月日格式yyyyMMdd

数据截图:

轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

数据是通过random算法随机生成,所以本次实验不针对结果进行评估,主要介绍实验搭建以及和大数据开发套件的调度使用。数据包含20160919、20160920的历史数据,需要针对20160921的数据预测。使用的是MaxCompute的分区表。

三、机器学习平台

实验可以通过实验模板处创建。

轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

首先,实验流程图:

轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

实验可以大致分为四个模块,数据源导入(ad),数据预处理(归一化),模型训练(逻辑回归二分类),预测(预测)。

数据源导入

  • ad-2是训练数据源。

  • ad-1是预测源,

  • 轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

  • 通过配置分区表的partition dt=@@{yyyyMMdd},确定预测数据是每日的增量数据。(分区使用详情见:https://help.aliyun.com/document_detail/30281.html?spm=5176.doc30276.6.126.3kX7OU)

中间过程

中间过程包括数据的归一化、模型预测两个步骤。模型训练是通过历史数据训练生成的预测模型。(详细原理可以参考心脏病预测案例)

预测

最终预测生成的结果表为ad_result-1,数据如下:

轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

  • prediction_result包含每个广告id是否被点击,被点击是1,不被点击为0。

  • prediction_score表示对应被点击概率

四、调度模块

进入数加的数据开发应用:

轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

(1)新建工作流任务

  • 在画布中可以拖动机器学习组件和ODPS_SQL组件进行工作流的搭建。

    轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

  • 双击"广告预测"组件进入对应的机器学习模块,选择需要调度的机器学习实验:

    轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

  • 返回,双击"每日预测值"组件,配置每日需要推送的信息,这里只需要推送预测结果是"被点击的广告",

    轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

  • 选择需要调度的时间,这里我选择每日的凌晨0点进行训练和推送信息。

    轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

  • 点击“提交”按钮,即可在运维中心查看实验的运行状态。调度从第二天才正式开始,进入运维中心。可以查看实验的日志。

    轻松实现系列:机器学习算法的离线调度实现-广告CTR预测

相关推荐