抖音，头条这类自媒体的推荐机制是什么？大数据如何给你贴标签？

舒哥的blog

2019-09-05

数字化时代的精准推荐系统

随着全球数字化、5G通信技术的成熟、互联网应用于各行各业，累积的数据量越来越大，越来越多企业、行业和国家发现，可以利用类似的技术更好地服务客户、发现新商业机会、扩大新市场以及提升效率，由此引发了一场新的技术革命.

科技进步极大丰富人类生活的同时,也给我们的生活带来了选择的困扰--如何快速的从头繁杂的数据中获取有价值的信息,推荐系统作为解决信息负载问题的有效方法,正在发挥着显著的作用;传统的推荐系统在处理大数据时存在的问题正在限制其性能的发挥.为了充分挖掘数据价值，提高推荐系统的性能和实时性，进一步有效缓解信息过载的问题,我们今天对数字化时代下的精准推荐系统进行探讨.

首先我们介绍下传统推荐系统的特点:

传统推荐系统生成推荐项的过程中有2个重要阶段：数据预处理阶段和推荐生成阶段.在数据预处理阶段，推荐系统需要从数据中获取用户偏好；推荐生成阶段，推荐系统根据用户偏好信息，利用推荐算法，从数据集中生成用户推荐项目.偏好获取技术是指通过跟踪、学习用户的兴趣、偏好以及性格特征等信息，实时、准确地发现不同用户对各种网络服务的需求，并对其变化做出适应和调整.传统的用户偏好获取技术通过显式或隐式的方式获取用户的偏好，主要分为启发式和建模两类.前者利用一些具有直观意义的启发式方法来获取用户需求，如最近邻算法、聚类(K-Means算法)、相似度计算等；后者通过引入机器学习技术学习一个模型，如决策树归纳、贝叶斯分类、聚类等.针对用户偏好随时间迁移的问题，研究者使用一些自适应方法，如信息增补技术、遗传算法和神经网络技术，来解决此问题.从信息过滤的角度来看，传统的推荐系统主要分协同过滤推荐系统(CF, collaborative filtering recommendation)、基于内容推荐系统、混合推荐系统.随着移动端设备的发展，又出现了上下文感知推荐系统.

接着我们介绍数字化时代下的推荐系统和传统的推荐系统的差异：

大数据由于有如下的特点:体量大(volume)、速度快(velocity)、模态多(variety)、难辨别(veracity)和价值大密度低(value),所以与传统推荐系统相比,数字化推荐系统系统面临更加复杂的信息提供环境和数据特征;只有在充分、准确提取和预测用户在大数据环境下产生的各种数据中蕴含的用户偏好后，才能有效生成准确度更高的推荐.因此，尽管大数据环境下推荐系统的基本思想与传统推荐系统是相似的，但着重考虑大数据环境给推荐系统带来的影响：数据产生的速度更快，数据高维稀疏，内容采样渠道更多，多源数据在融合时由于结构和采集方式的不同会引入更高的噪声和冗余，数据结构比例发生变化，非结构数据、半结构数据成为主要数据，流式数据也成为常见数据类型.数据内容变得丰富，推荐系统可以采集到丰富的用户隐式反馈数据.移动网络的快速发展，促使移动应用变得丰富多彩，用户使用移动设备或登录移动应用产生丰富的移动社会化网络数据，尤其是基于位置的GPS数据成为重要的数据.以数据处理为主的诸多大数据问题使推荐系统对数据处理能力的要求更高，同时丰富的数据使得用户对推荐系统的实时性和准确性要求更高，从而使得适合传统推荐系统的方法并不能直接应用到大数据环境下的移动推荐中，需要进行算法的改进和扩展，才能较好地满足大数据环境下推荐系统的需求.