如果开放运营商的数据宝藏,大数据江湖谁称霸主?
导读
导读:大数据时代的到来使得数据的价值得到高度认知,不断发展的大数据处理技术也使得海量数据的挖掘处理成为可能。运营商的数据以其在覆盖度、持续性等方面的优势成为关注的焦点。
本案例将探索运营商数据应用的现状和方向,分享运营商数据处理的技术及过程中的感悟。通过产品理念、技术架构、商业模式探索等实践,揭开运营商数据的神秘面纱,将纷繁复杂、错综关联的运营商数据转化为产品化、标准化的可用数据。构建运营商数据变现和互联网广告营销需求的连接产品。
(全文共5371字 预计阅读时长:6分钟)
问题提出
● 1.1 精准营销和运营商数据变现双重助力下的瓜熟蒂落
信息爆炸的时代,影响着我们每一个人的生活,各种信息充斥着手机、电视、电脑等我们日常接触的各种屏幕,使得信息在头脑中留下印象的机率越来越小,电视时代的诸如“羊羊羊”、“新飞广告做得好,不如新飞冰箱好”类似的经典很难再现。对于企业来说,营销,意味着充分利用与客户接触的每一次机会,向客户传递有用的信息,才可能体现营销的效果。如何利用与客户接触的机会,“告诉客户他想知道的事情”?
数据,是企业精准营销的前提。
而对于掌握着通信和上网通路,可以获取管道中的上网数据的运营商来说,却面临着另外一个难题:创收。一方面通信市场越来越饱和,运营商间用户争夺、业务竞争越来越激烈,利润空间被压至最小;另一方面,互联网时代到来,各种即时通信工具的涌现,使得语音通信的刚需阵地慢慢沦陷,传统业务被挤压殆尽,沦为管道的命运不可逆转。为了维持市场地位,甚至为了生存,运营商必须寻找一条逆袭之路。
数据,是运营商盘活棋局的希望。
● 1.2 系统建设厂商的“宿命”之选
当运营商在考虑数据应用、数据变现,必然会不断催生数据变现相关的系统建设需求。近些年来,各地运营商大数据平台、数据中心、DMP建设、数据变现等相关项目层出不穷,传统的运营商系统建设厂商的订单,也正悄然发生着转移。
另一方面,运营商是各系统建设厂商的生存之本,当根基不再一如既往的坚固,为了生存,各厂商也会寻求除运营商之外的道路。为了能充分利用对运营商系统/数据的了解、为了继续发挥自身优势、为了最大限度挖掘自身核心资源的价值,顺应大数据时代的潮流,运营商数据应用与变现,也成了各系统建设厂商的“宿命”之选。
实践过程
● 2.1 如何面对运营商数据
面对运营商数据,要完成相关产品构建,最终实现运营商数据的输出与行业应用,一般需要回答以下几个问题:
如果知道所有人的全部上网行为,可以拿来做什么?
用运营商数据服务于精准营销,产品应该做成什么样?
怎样把运营商数据转化为互联网营销中可用的信息?
基于运营商数据的DMP产品架构应该是怎样的?
回答上述问题的过程,即是运营商数据面纱缓缓揭开的过程,最终形成基于运营商数据的营销大数据服务平台(DMP)。
● 2.2 营销大数据服务平台(DMP)
DMP平台通过对运营商数据,特别是用户上网数据进行分析处理,用全网络行为分析实现对人的精准刻画,并提供给需求方用于个性化营销、服务。
DMP通过对运营商数据的处理,实现由运营商原始数据至需求方实际需求的转化,保证运营商数据快捷、方便的应用,降低数据接入、数据加工过程中的沟通及处理成本。
●2.3 营销大数据服务平台(DMP)打造
DMP平台打造过程,即是层层揭开运营商数据面纱的过程,大致可分为四步:
第一层,数据。对运营商数据源进行分析评估,客观评价运营商数据的优与劣,褪去运营商数据的传奇色彩;
第二层,平台。基于运营商数据特征及处理需求,搭建适用于运营商数据处理的产品架构,奠定数据转化的基础;
第三层,处理。个个击破数据处理难点,实现数据解码,将设备间的通信语言转化为可理解、可应用的标签语言;
第四层,服务。打通数据对外输出的流程,构建数据输出通路,保证数据到达应用方,转化为营销生产力。
揭开面纱第一层:数据
运营商系统按照业务领域一般分为管理系统、业务运营系统、网络运营系统三个大的方面。一般所谓“管道数据”即网络数据,主要指网络运营系统中的数据,包含网络中的业务开通、保障、资源管理等内容,在对外开放层面,尤其以DPI数据最为普遍,其次是A口信令数据。本文以DPI数据作为主要的分析对象。
在采集方式上,DPI数据一般采用分光技术在网络中的SGSN和GGSN节点间架设分光设备,将DPI数据传输至经分系统中进行进一步的分析处理,一般合作厂商都是基于经分平台及分光至经分的数据源进行后续的分析处理。
理论上说,作为通信管道,运营商可以获取全部用户的全部上网行为。这一点是数据需求方对运营商数据趋之若鹜的主要原因,也是运营商宣传的重点。但是,运营商真的拥有所有用户的全部上网行为吗?通过实际的接触和分析,我们发现这是只存在于理想情况下的一个愿景。
首先,从数据接入方面来看,很难覆盖全部数据。我国的运营商分移动、联通、电信三家,每家运营商从网络类型来说又区分移动网数据和固网数据,再加上由于运营商自身运营管理机制,一般需要和全国各省运营商分别建立数据通路。由此看来,要接入全部运营商的全部省份的数据,且包含全国30多个省份地区,单纯只是商务接洽的战线就已经很难接受,更不用考虑全部接入的数据、设备成本投放了;
其次,从DPI数据本身包含的内容来看,无法覆盖全部数据。目前各运营商提供的DPI数据一般仅包含GET协议的上行报文数据,不包含POST请求、不包含HTTPS协议、不包含下行报文,再加上记录丢失、字段值缺失等问题,使得数据远远无法覆盖用户的全部上网行为。
因此,在数据应用过程中,由于数据本身的原因,经常听到如下的问题或抱怨:
你们只有一两个省的数据,还不是全部运营商,覆盖范围太小了……
移动网和固网的行为能结合在一起串联用户行为吗?
想要Uber的访问用户……(https)
淘宝天猫自己的推荐做得很好,能不能直接拿数据来用?(下行报文)
但是,运营商数据由于可以串联起“人”的各个ID标识,串联人在多个站点间的行为。
与其他数据源相比,有以下关键价值:
可串联起用户的多个ID及多站点行为,形成跨屏关联和长期兴趣分析的基础;
可解析在站点/app内的细节行为(如搜索、商品浏览、评价等),提供营销“精准”的前提。
揭开面纱第二层:平台
运营商数据应用产品的平台架构,主要考虑平台、技术、生态圈几个方面。
平台方面,主要采用Hadoop/Spark等适用于大数据处理的技术,数据处理过程主要使用Hive HSQL及MR技术,对外输出主要通过Redis,HBase等;
技术方面,主要涉及以下内容:
用户识别技术,对用户ID进行识别,并建立同一用户多个ID间的关联关系,以便跟踪识别用户行为轨迹;
内容识别技术,识别用户上网操作中的关键内容转化为机器语言;
用户画像技术:对用户的多种行为、多条记录进行分析,通过用户行为描述用户特征,实现对人的描绘和刻画。
生态圈方面,基于营销过程中对数据,特别是运营商数据的需求,梳理、提取并处理相关数据,形成数据应用的闭环。外部需求也决定了对外服务的主要形态,主要涉及以下几个方面的应用:
广告投放,包含相关的人群筛选、人群标签查询等内容;
数据报告,基于用户行为,分析指定用户群的特征,为营销服务工作提供指导;
投放监控,跟踪投放及营销活动的后续转化情况,站在第三方的角度评估投放及营销效果。
基于上述剖析,DMP的功能模块划分如下:
揭开面纱第三层:处理
处理,是运营商数据应用的核心环节,通过清洗、内容识别、用户管理、用户汇总等环节,将纷繁复杂的DPI数据转化为可对外输出的标签。
对于运营商DPI数据的特有特征,数据处理环节需解决多个难题。
难点1:分层结构和适配器结合,解决多地数据、异构机房数据处理问题。由于运营商数据分布于多个省、多个公司,各地在基础设备建设、产品规划等方面存在很大的差异,对外合作的模式也有很大的不同,对接运营商数据的接口界面需要很强的扩展性。我们在产品设计中,采用分层结构和适配器相结合的方式,保证分工界面可以运营商机房和自有集群间相对自由的伸缩,也保证与运营商数据接触的界面可以灵活的根据数据情况进行调整。
难点2:关联规则配合图计算模型,建立用户统一识别机制。要串联起人的访问轨迹,建立起各ID间的关联关系是必要条件,但由于各网站间的相对独立性,也由于同一用户在网络中天然存在多个ID,如ADLS账号、imei串号、idfa、各站点cookie,以及在各个站点的用户名如QQ、taobao账号等,要建立起不同ID间的关联难度相当大。DMP通过构建识别模型,形成了包含关系强弱管理、关系更新机制用户体系,打通营销触达的全方位通路。
难点3:内容识别,实现对上网行为关键要素的提取和解析。DPI数据记录的是单条的网络访问,通过url、UA、cookie、imei等信息进行记录,要把这些网元间通信的机器语言转化为可用于营销的自然语言,需要进行url及host梳理、动作及对象梳理、工具识别、位置识别、设备识别等多个步骤。DMP平台投入大量资源进行DPI内容识别,通过人、工具、动作、对象、内容、位置、设备等,对上网行为进行解析,提取关键因素,形成后续处理的基础。
难点4:用户画像,完成对人的全方位多角度刻画。用户画像包含多个方面,从多个角度实现对人的刻画。DMP基于行为类目体系和人群类目体系,构建算法平台,对用户的各个侧面进行画像。其中,人群类目体系根据视角不同,可划分为人口属性、地理位置、个人关注、消费倾向等不同方面。
揭开面纱第四层:服务
对外数据服务,是运营商数据应用的最后一公里。对外服务的形态,取决于外部对运营商数据的需求及主要应用场景。如平台部分所描述,在营销方面,外部对运营商数据的需求主要可归纳为广告投放、分析报告、效果监测三个方面,其中,广告投放是最核心的应用方向。
基于对三个主要应用方向的需求理解和分析,DMP的对外服务主要包含以下方面:
“我的人群”:以输入筛选条件,输出符合条件的人群ID(cookie/idfa/imei/ip等)为主要形式,通过对用户上网行为的分析,形成分层级的标签类目体系,并通过对目标人群特征的认知,从全量人群中筛选营销的目标人群。
“用户指数”:以输入人群ID(cookie/idfa/imei/ip等),输出该用户的标签为主要形式,基于用户统一识别的ID体系及分层级的标签类目体系,可输入不同ID,可输出指定内容的标签,以达到对人进行综合认知的目的。
“数据洞察”:以指定人群为分析对象,以分析报告为主要输出形式,总结群体特征,服务于广告主、企业对会员、目标客户等的分析描述,为营销、服务提供决策支持。
“效果监测”:以运营商管道数据为基础,实现不部码的广告及营销效果监测。
因涉及数据对外输出,必须考虑用户隐私和数据安全问题。DMP平台通过网络安全、应用安全、数据安全三层设防:
网络安全,通过HTTPS加密协议、VPN加密通道等方式访问内部网络,并在内部加设堡垒机控制数据通路;
应用安全,严格的用户名、密码及访问token验证,保证访问过程在可回溯、可控制的范围内;
数据安全,原始数据的脱敏加密、数据提供方与需求方协商一致的不可逆加密算法、敏感信息输出不可逆的指数/评分等,保证用户隐私及传输过程不被外部破解。
● 2.4 基于运营商数据DMP的未来
我们用DMP实现了运营商数据的一站式加工处理,可对外输出服务于企业精准营销的人群、标签及相关分析服务,面对运营商数据的纷烦复杂无从下手的局面,大多数据企业可以轻松绕开。
但运营商数据价值的挖掘,至此为止才仅仅是个开始。要更好的发挥运营商数据的价值,总结我们的经验和相关需求,主要体现在垂直行业的深度应用、业务人员的深度参与两个息息相关方向。
垂直行业的深度应用
企业的精准营销是建立在对客户需求的深入理解和认知的基础上的。由于各行业的需求特征不同,用户在互联网中的表现也各不相同,如电商行业会比较关注用户浏览商品、加购物车、收藏、购买等行为动作,及各动作涉及的商品特性(品牌、品类、价格等);而房地产行业则更关注用户关注的房屋的特性(户型、朝向、面积、交通环境等)。
要实现更深入的需求了解,需要根据不同行业的特征,深入分析用户在具体行业站点内的行为,解析并构建更具行业特征的标签体系。
业务人员的深度参与
目前DMP对数据的分析处理主要由技术人员完成。由于不了解业务,大多数情况下的技术处理过程、数据加工方式,都由技术人员从技术处理角度出发进行设计,或听从业务人员的经验理解后再作处理。由于技术处理的过程较复杂,一般业务人员很难直接参与,从而导致数据处理过程与实际业务应用无法直接对接。
一般资深数据挖掘人士都清楚,模型准确性的提升,一方面取决于数据的优劣和训练过程的调整,更重要的一方面则是对业务背景的深入理解。因此,DMP的后续发展,需要更方便业务人员的参与,以便更多融入业务人员的经验,实现数据至业务更顺畅的转化。
应用分享
●应用1:某银行信用贷款广告投放
推广内容:针对信用卡贷款的推广活动
考核指标:考核CPA,A为注册(填写姓名和手机号并回访确认)
支撑方式:通过DPI数据寻找核心人群(广告带来的注册人群),分析核心人群的人群特征—根据核心人群的媒体访问特征进行媒体定向,根据核心人群的关键词、上网时间等特征进行核心人群扩展。
效果:CPA下降至散投时的约1/3。
● 应用2:某餐饮企业会员分析
分析背景:某餐饮行业积累了大量会员,希望通过运营商数据分析会员特征以指导其服务员的服务工作。
主要分析内容:当前在网情况、地域分布、触媒习惯(app使用及站点访问习惯)、关注内容特征(关键词TGI)、网上关注餐饮类内容等。
主要结论:
●会员常驻地与门店平均距离6.8公里;
●会员偏好餐饮类app;
●会员喜欢社交、热衷购物,是出行达人;
●IOS手机占近8成,手机价格较高。
案例启示
运营商数据并非“富矿”,价值发掘的过程即细致的梳理、提炼过程;
项目最大的难点是数据源接入,多家运营商、多省运营的现状决定了数据接入成本巨大,如何在成本控制的基础上,汇聚多机房多形态数据源是决定项目成败的关键因素;
用户量、标签量及其质量是数据价值的直接体现;
数据价值的衡量目前尚未形成明确的定价机制,主要取决于对需求方业务提升的程度,基础平台结合行业深耕是提升价值的必经之路。
★★征稿★★
寻找100个年度最具价值的实践案例
我们只要案例干货,拒绝广告
成为特约作者,你将:
◆ 连接100名年度经验与增长值TOP100的研发精英
◆ 提前入围「壹佰案例」年度最优案例榜单
◆ 案例整理成册,出版发行图书
◆ 成为msup客座教练
◆ 以观察员身份受邀出席TOP100全球软件案例研究峰会
◆ 所在公司享有msup活动优惠
有意者请留言。