抖音,头条这类自媒体的推荐机制是什么?大数据如何给你贴标签?
数字化时代的精准推荐系统
随着全球数字化、5G通信技术的成熟、互联网应用于各行各业,累积的数据量越来越大,越来越多企业、行业和国家发现,可以利用类似的技术更好地服务客户、发现新商业机会、扩大新市场以及提升效率,由此引发了一场新的技术革命.
科技进步极大丰富人类生活的同时,也给我们的生活带来了选择的困扰--如何快速的从头繁杂的数据中获取有价值的信息,推荐系统作为解决信息负载问题的有效方法,正在发挥着显著的作用;传统的推荐系统在处理大数据时存在的问题正在限制其性能的发挥.为了充分挖掘数据价值,提高推荐系统的性能和实时性,进一步有效缓解信息过载的问题,我们今天对数字化时代下的精准推荐系统进行探讨.
首先我们介绍下传统推荐系统的特点:
传统推荐系统生成推荐项的过程中有2个重要阶段:数据预处理阶段和推荐生成阶段.在数据预处理阶段,推荐系统需要从数据中获取用户偏好;推荐生成阶段,推荐系统根据用户偏好信息,利用推荐算法,从数据集中生成用户推荐项目.偏好获取技术是指通过跟踪、学习用户的兴趣、偏好以及性格特征等信息,实时、准确地发现不同用户对各种网络服务的需求,并对其变化做出适应和调整.传统的用户偏好获取技术通过显式或隐式的方式获取用户的偏好,主要分为启发式和建模两类.前者利用一些具有直观意义的启发式方法来获取用户需求,如最近邻算法、聚类(K-Means算法)、相似度计算等;后者通过引入机器学习技术学习一个模型,如决策树归纳、贝叶斯分类、聚类等.针对用户偏好随时间迁移的问题,研究者使用一些自适应方法,如信息增补技术、遗传算法和神经网络技术,来解决此问题.从信息过滤的角度来看,传统的推荐系统主要分协同过滤推荐系统(CF, collaborative filtering recommendation)、基于内容推荐系统、混合推荐系统.随着移动端设备的发展,又出现了上下文感知推荐系统.
接着我们介绍数字化时代下的推荐系统和传统的推荐系统的差异:
大数据由于有如下的特点:体量大(volume)、速度快(velocity)、模态多(variety)、难辨别(veracity)和价值大密度低(value),所以与传统推荐系统相比,数字化推荐系统系统面临更加复杂的信息提供环境和数据特征;只有在充分、准确提取和预测用户在大数据环境下产生的各种数据中蕴含的用户偏好后,才能有效生成准确度更高的推荐.因此,尽管大数据环境下推荐系统的基本思想与传统推荐系统是相似的,但着重考虑大数据环境给推荐系统带来的影响:数据产生的速度更快,数据高维稀疏,内容采样渠道更多,多源数据在融合时由于结构和采集方式的不同会引入更高的噪声和冗余,数据结构比例发生变化,非结构数据、半结构数据成为主要数据,流式数据也成为常见数据类型.数据内容变得丰富,推荐系统可以采集到丰富的用户隐式反馈数据.移动网络的快速发展,促使移动应用变得丰富多彩,用户使用移动设备或登录移动应用产生丰富的移动社会化网络数据,尤其是基于位置的GPS数据成为重要的数据.以数据处理为主的诸多大数据问题使推荐系统对数据处理能力的要求更高,同时丰富的数据使得用户对推荐系统的实时性和准确性要求更高,从而使得适合传统推荐系统的方法并不能直接应用到大数据环境下的移动推荐中,需要进行算法的改进和扩展,才能较好地满足大数据环境下推荐系统的需求.
最后我们介绍下数字化时代下推荐系统的关键技术:
如下是推荐系统的基本架构:
大数据环境下推荐系统框架被划分为4层,分别为源数据采集层、数据预处理层、推荐生成层以及效用评价层.其中,在数据预处理层把采集到的相关数据进行预处理计算,其数据处理结果作为推荐系统数学形式的输入,主要工作为用户偏好获取、社会化网络构建、上下文用户偏好获取等;推荐生成层是推荐系统的核心,在大数据环境下,该层主要任务就是引入和充分处理大数据,并且生成实时性强、精准度高以及用户满意的推荐结果,目前主要的推荐技术有大数据环境下基于矩阵分解的推荐系统、基于隐式反馈的推荐系统、基于社会化推荐系统以及组推荐系统;在效用评价层,在将推荐结果呈现给用户时,需要结合用户的反馈数据,利用准确性、实时性、新颖性、多样性等评价指标评价推荐系统的性能,并根据需求对其进行扩展、改进等.
今天我们重点分析下基于隐式反馈数据的推荐系统:
大数据环境下,隐式反馈数据(如用户视频点击、浏览网页、转发微博、购买商品等行为数据)是主要的输入数据形式,这类数据不需要用户投入更多的精力,同时也不会影响用户正常生活,收集成本低、应用场景广泛,数据规模也更大,而用户评分数据只有非常稀疏的数据量.这些条件决定了在大数据环境下,基于隐式反馈数据的推荐系统将成为推荐系统的主要形式之一.
传统的推荐系统忽视了大量的隐式反馈信息,而只关注于分析用户评分数据,这不仅浪费了宝贵的大数据资源,更限制了大数据环境下推荐系统的发展.
隐式反馈数据分为"选择"和"未选择"两类,其中"选择"数据数量较少,该数据能直接反映用户偏好;"未选择"数据数量众多,却不能直接解释为用户不喜欢,而是无法确定用户偏好.目前,研究者主要使用正隐式反馈数据,如Pálovics等使用用户收听音乐的行为数据,而浪费了大量用户未收听音乐的数据.针对该问题,印鉴等提出一种隐式反馈推荐模型(IFRM, implicit feedback recommendation model),将推荐任务转化为用户选择行为发生概率的最大化问题,达到直接对隐式反馈数据进行建模的目的,这样既利用了"未选择"信息,又避免引入负例的同时引入噪声,提升了推荐质量.同时,借鉴了降维方法解决高维稀疏数据的噪声问题,进一步采用分桶的并行化隐式反馈模型p-IFRM,提高了算法的效率.隐式信任数据是一种由用户间交互行为反映的用户关系,Fazali等使用隐式信任数据预测用户信任值评分,实验证明与采用用户评分数据获取结果相似,但其数据采集成本更低,有很好的应用前景.
相比于用户评分数据,隐式反馈数据能直观反映用户的行为偏好.大数据环境下,丰富的隐式反馈数据使得短期局部用户偏好的捕捉也成为可能,当前短期偏好可以较好预测用户未来一个时间段内的偏好,生成实时性强的推荐结果. Yang等提出基于局域隐式反馈大数据的推荐算法,模型利用局部和全局的隐式反馈数据,基于用户未来短期内的音乐偏好受到当前用户偏好影响的思想,把用户时间划分为多个时间切片,在每个时间切片内,综合考虑用户的上下文环境(如休息、工作或跑步)对用户歌曲选择的影响,根据当前时间切片内获取的用户音乐偏好预测下一个时间切片内用户的音乐偏好,进而为用户准确推荐歌曲,并且使用SGD优化算法,提高算法实时性,同时调节时间切片的粒度,从而获取用户长期稳定偏好和用户短期易变偏好.
传统的推荐方法在处理评分数据时有良好性能,但隐式反馈数据没有直接的评分,不同于基于评分预测的方法,直接的基于排序的方法在处理隐式反馈数据时有更好的效果. Zhao等把微博中提取的用户对商品反馈信息加入排序算法,取得了良好的电子商务推荐效果.但是传统的排序方法目标函数最小化需要付出很大代价,需要在目标采样上牺牲一定精度来改善算法的计算效率,而大数据时这种牺牲往往不能容忍.有研究者认为,在大数据环境下,数据采样的方式不再重要,甚至不需要采样.基于这样的思想,Takács等提出RankALS,该算法不进行采样,直接对排序目标函数最小化,提高了数据处理效率。
最后我们对推荐系统做一下展望:为了缓解更加严峻的"信息过载"问题,推荐系统受到工业界和学术界越来越多的关注.大数据环境下,数据规模更大,更新速度更快,数据类型更多,传统的推荐系统无法直接满足对大数据环境数据的处理需求,因此在相同的框架下,提出了大数据环境下的推荐系统,其对大规模数据处理能力的需求更高,对推荐结果的准确性和实时性要求也更高.同时,大规模数据也为进一步提高推荐系统的准确性提供了机遇.目前,采集的主要用户数据是隐式反馈数据,相比于传统推荐系统主要输入数据——用户评分数据,隐式反馈数据数量大、成本低,同时对用户干扰小,其中从移动网络中采集到的移动社会化网络数据,尤其是用户位置数据,有很大的使用价值.同时,大数据环境下的推荐系统应用领域还有很多亟待解决的问题,例如,如何利用大数据缓解推荐结果多样性,如何在保护用户隐私安全的同时充分利用大数据带来的价值等.因此,大数据环境下推荐系统仍然有重要的研究意义和巨大的应用价值.