轻松实现系列：机器学习算法的离线调度实现-广告CTR预测

huomingfei

2016-09-26

关注关注

机器学习实验部署和调度

（本文数据为虚构，仅供实验。本实验拟在介绍阿里云机器学习与大数据开发调度的配合。）

一、背景

本文实现的场景是广告的CTR预测。广告CTR预测是广告行业的典型应用，通过历史数据训练预测模型，对于每天的增量数据进行预测，找出广告的CTR符合标准的样本进行投放。

整套实验使用了阿里云机器学习进行数据挖掘工作，通过大数据开发套件进行调度和推送。具体的业务场景是：通过历史数据在阿里云机器学习平台上面训练模型，通过大数据开发进行调度，每天凌晨对于每天的广告投放CTR预测，甄选出符合标准的广告推送出去。

二、数据集介绍

具体字段如下：

字段名	含义	类型	描述
id	ID	string	广告的唯一标识
age	年龄	double	广告投放人群的年龄
sex	性别	double	广告投放人群的性别，1是男，0是女
duration	时长	double	广告在界面的停留时长，以秒为单位
place	位置	double	广告投放位置，0~4，按照投放位置从上到下的顺序排列
ctr	广告CTR	double	广告点击量除以展现量，这里面大于0.03是1，其它是0
dt	partition	string	年月日格式yyyyMMdd

数据截图：

轻松实现系列：机器学习算法的离线调度实现-广告CTR预测

数据是通过random算法随机生成，所以本次实验不针对结果进行评估，主要介绍实验搭建以及和大数据开发套件的调度使用。数据包含20160919、20160920的历史数据，需要针对20160921的数据预测。使用的是MaxCompute的分区表。

三、机器学习平台

实验可以通过实验模板处创建。

轻松实现系列：机器学习算法的离线调度实现-广告CTR预测

首先，实验流程图：

轻松实现系列：机器学习算法的离线调度实现-广告CTR预测

实验可以大致分为四个模块，数据源导入（ad），数据预处理（归一化），模型训练（逻辑回归二分类），预测（预测）。

数据源导入

ad-2是训练数据源。
ad-1是预测源，
通过配置分区表的partition dt=@@{yyyyMMdd}，确定预测数据是每日的增量数据。（分区使用详情见：https://help.aliyun.com/document_detail/30281.html?spm=5176.doc30276.6.126.3kX7OU）

中间过程

中间过程包括数据的归一化、模型预测两个步骤。模型训练是通过历史数据训练生成的预测模型。(详细原理可以参考心脏病预测案例)

预测

最终预测生成的结果表为ad_result-1,数据如下：

轻松实现系列：机器学习算法的离线调度实现-广告CTR预测

prediction_result包含每个广告id是否被点击，被点击是1，不被点击为0。
prediction_score表示对应被点击概率

四、调度模块

进入数加的数据开发应用：

轻松实现系列：机器学习算法的离线调度实现-广告CTR预测

(1)新建工作流任务

在画布中可以拖动机器学习组件和ODPS_SQL组件进行工作流的搭建。
双击"广告预测"组件进入对应的机器学习模块，选择需要调度的机器学习实验：
返回，双击"每日预测值"组件，配置每日需要推送的信息，这里只需要推送预测结果是"被点击的广告",
选择需要调度的时间，这里我选择每日的凌晨0点进行训练和推送信息。
点击“提交”按钮，即可在运维中心查看实验的运行状态。调度从第二天才正式开始，进入运维中心。可以查看实验的日志。

机器学习 ctr td 大数据广告算法

安科网

轻松实现系列：机器学习算法的离线调度实现-广告CTR预测

huomingfei

huomingfei

相关推荐

需要知识的后深度学习时代，如何高效自动构建知识图谱

数据科学面试中应了解的十种机器学习概念

模型数据出现偏差怎么办？一文了解机器学习中的7种数据偏差类型

机器学习中处理缺失值的9种方法

人工智能和机器学习如何从物联网数据中提取关键见解

关于机器学习算法的16个技巧

选择困难终结者：不同问题之下的机器学习算法

TensorFlow为新旧Mac特供新版本，速度最高提升7倍

如何通过7个步骤构建机器学习模型

机器学习新风暴：如何用ML模型预测房价？

关于机器学习管道需要了解什么?

为什么所有的机器学习模型有90％从没有投入生产

LinkedIn开源Dagli，发布Java机器学习函数库

全面解读谷歌云人工智能如何为机器学习提供帮助

关于感知器的故事：机器学习是如何发展到如今这一程度的呢？

10个丰富自我的机器学习项目

机器学习如何颠覆金融行业

24个提高知识和技能极限的机器学习项目

IT自动化和人工智能将在2021年走向何方？

无监督机器学习的重要指南

huomingfei