一淘公达:解决个性化搜索中的时效性与数据碎片化

搜索引擎诞生到现在已经有几十年历史,期间搜索技术一直在不断的变化,从最初的目录索引到关键词,以及目前正在发展阶段的语音搜索、图片搜索等等,搜索引擎在不断进化当中。如果现在来谈谈搜索引擎的下一个趋势是什么,那么个性化搜索引擎无疑是最受关注的方向,并且将成为搜索引擎的未来。因为,当前的搜索引擎尽管还能给用户提供一些有用的东西,但是因不同地区、个人兴趣习惯、社交关系等因素去搜索时,得到的搜索结果却不尽人意,这是目前搜索引擎需要改进的地方。

在阿里巴巴集团今年主办的ADC•阿里技术嘉年华这一场专属于<互联网工程师>的“技术盛宴”,倡导<干货分享>的大会上,51CTO记者有幸采访到了一淘的个性化搜索专家 陈曦(公达)老师,主要针对目前个性化搜索中面临的一些重要的问题采访,比如SEO与个性化之间的问题,防止过度个性化,以及在个性化搜索中的时效性与数据碎片化对个性化搜索的影响。

一淘公达:解决个性化搜索中的时效性与数据碎片化

下面是采访实录:

记者:个性化搜索这门技术是怎么起源的?它最新的进展是什么样的情况?

公达:最早做个性化的应该是谷歌,像他们这些通用的搜索引擎,到现在阿里也开始做个性化,而他们做的效果都不是特别满意。因为到目前为止没有看到特别好的个性化搜索的产品,我们淘宝做这个个性化搜索,其实有一些自己的优势。因为我们有更加忠实的用户,有更丰富的数据,所以我们应该可以达到更好的个性化的效果。我们也是最近这么一两年来才开始做个性化的搜索。

记者:那就是说阿里在投入个性化搜索也就是最近一两年的事。到现在为止取得了怎么样的成绩?你们是怎么判断自己的成绩?怎么去衡量自己的成果?有没有觉得不满意?

公达:我们自己肯定是在个性化有自己的一些理解,比如说我们希望个性化搜索能达到什么样的效果,我们实现的时候,我们肯定会先按照我们希望的效果来做,等做出来了一个初步的效果之后,我们会让用户来通过实际的一些用户来给我们评价,到底我们的效果是不是他们满意的,我们是通过这样来评价的。

记者:在个性化搜索系统中,它的难点在于什么地方?它是技术难点还是产品难点?

公达:它应该是两方面难点都有的,比如说技术上面的话,最困难的是说我们怎么样能够把用户的个性化、个性信息描述准确。比如他的性别,或者是他喜欢的衣服的风格等等,我们怎么样能够给他预测准。第二个是预测准了之后,他到底是不是喜欢?这个其实也是因为不同的人,他对自己一些购物的特点都是不太一样,有的人虽然以前喜欢某个东西,但是突然他的信息又变化了。这种兴趣的不确定性,这是最困难的一个地方。

从产品上面来讲,其实也就是这个用户到底能不能够更加适用个性化需求的结果,他会不会觉得我们预测错了,或者怎么样的话,可能以后就不太会再用了。我们希望能够尽量预测准,那样他才会一直用下去。

记者:个性化搜索技术,在一个典型的个性化搜索团队里面,大家都是什么样的人员构成,都有哪些职责分工?

公达:首先我们有很多人是在做那些基础的数据,比如说可能会计算用户的各种偏好,这是属于很基础的数据。我们目前会有一个很大的团队来做这件事情。包括用户的各种数据,像他的年龄、性别,包括他的职业,一些购物的兴趣点之类的事情,我们都有一个比较大的团队来计算。第二个,我们会有系统方面的一些工作,比如说我们要搭建一个个性化的搜索的系统,我们有实时的个性化系统,我们搜索引擎也会支持更多个性化。第三部分,算法方面需要利用用户的一些个性化信息,然后给他推出一个合适的搜索结果。其实就是数字与系统和算法这三部分,是我们个性化主要的部分。

记者:刚才你谈到会有很大一个团队专门在做数据的搜集整理,对于个性化推荐来讲会不会有很多用户觉得侵犯到他们的隐私,你们是怎么看待这个问题?

公达:目前的话,我们倒是没有收到明显的用户投诉说我们收集到了他的隐私,其实不太正常的。因为用户的行为在淘宝上有纪录应该是一个很正常的,大家都可以认可的事情。比如说你买了什么样的东西,这个肯定是需要有纪录的,而且自己也能查看的,当然淘宝肯定是有数据。如果说用户实在是不想我们收集的话,我们以后也会提供这样的一个功能,我们可以不对他做个性化或者怎么样,都是可以。

记者:在现在的互联网企业,在什么时候才能需要到一个个性化搜索?

公达:那肯定是它的一个通用的搜索,如果说已经做的比较成熟了。对用户的数据也搜集的足够多了,如果说他有一个比较稳定的客户群,这个时候他可以考虑给他一些稳定的客户,给他们一些定制的个性化的结果。

记者:在实时计算和离线计算对于个性化搜索哪个占的优势比较多一些?你们应用比较多的是哪一个?

公达:这个应该两方面都是占的比较多的,因为离线计算的话,它是对于那种长期的偏好是比较重要的,实时计算的话对于当前用户的时时的偏好是非常重要的。这方面目前在规划里面都是很重要的两个方面。

记者:个性化搜索有一个行为叫做时效性,我听你在演讲过程当中也有讲过这个问题,你们是怎么去处理这个问题?

公达:我们首先是用户默认的,或者一个长期的偏好的模式,比如说三个月或者六个月的兴趣来算的,他实时计算当天的行为就是会放到时时的数据里面。这个实时的数据,当它达到了一定的精确度之后,就会来修改他长期的偏好,所以它应该是一个互相结合的过程。

记者:你们怎么去排除一些过期的行为?比如说比较久的?这些可能在用户当中已经并不存在了,或者他们那些行为在过程当中也会改变的等等?

公达:比较久了,那就是从长期模型里面找。长期模型里面我们肯定会考虑所谓的时间,越近的行为肯定是越重要的,越远的行为越不重要。所以既然发生的时间很久了,那么它的重要性就降低了,这样也会被新的行为所取代了。

记者:你们一般做这块的话,都是以最新的一些行为作为标准,他以前的一般就不会考虑。

公达:如果他最近的行为已经足够丰富了,那么他以前的行为肯定不重要了。但如果他最近没有什么行为,那他很久以前的行为也是有一定的好处的。

记者:在个性化搜索当中,个性化定制的功能在一淘中用户体现的是怎么样的?有没有好的反馈?

公达:个性化定制,目前用户还是比较多的,因为已经上线了一段时间了,当然用的人还是比较多的。这些用的人他会通过这个性化定制可以修改他们个性化的信息。

记者:个性化搜索,它有数据挖掘技术在里面,而对于数据的来源要求还是挺高的。在这一块,对于数据的碎片化,你怎么去解决这个问题?

公达:碎片化其实就是说这个数据很稀疏,我们是尽量丰富数据的,比如说我们可以用三个月或者六个月,或者一年的数据,用的数据越多,肯定它的吸收性能也就越好了。我们会用一类人的一些数据,比如说对于用户来说,我们是给他分一些群体,而不是说每个用户都是不一样,然后再保密。我们会给他一些比较宽泛的定义,比如说像价格档位,我们也可以分五档,并不是说分十档,或者二十档,那可能太稀释了。

记者:很多时候大家讨论个性化搜索对于一个网站的SEO其实是有一些影响的,你怎么看待这个问题?就目前大部分的网站做SEO主要是排名的竞争,很少会用到个性化搜索,你怎么看这个问题?

公达:个性化搜索的话,其实是要求他,每一个卖家能够给它提出了更高的要求。就是说它需要服务好每一类人,如果说以前的话他服务好大众的人就行了。但是现在如果他想拿到更多的流量,他就需要对每一类人都服务的好,这样他在每一类人的排序上面,可能都会比较前面。所以对于个性格搜索 来说,需要考虑的更多了一点。

记者:在淘宝上,我看到很多卖家,在关键词上面,他做了很多SEO优化,这上面什么关键词都有。对于个性化搜索来说,它有没有能够精准的定位,卖家有没有什么影响?我是说在搜很多东西的时候,卖家的关键词几乎什么都覆盖掉了,对个性化搜索有什么影响?

公达:如果说体现的关键词太多,如果说太多的话,而且是一个不正当的,甚至和宝贝并不符合的关键词,那可能本身被排起来,他是不利的。因为我们对这种乱填的关键词会有一定的处罚,如果都是正常地描述一个宝贝的关键词,那肯定是不会有太大影响。即使是个性化也是都会考虑的。

记者:你目前在做这一块的话,能讲一些目前的难点吗?就是比较困难的地方。

公达:困难的地方,我们怎么样能够把用户的兴趣描述的更准了。比如说他的购买力、他的性别等等,就是说越准确的话,用户的体验就会越好。如果给他预测错的话,他的体验就不是很好。甚至是或者会修改,或者会关闭个性化。如果说越准确的话,他肯定是越喜欢用。所以我们会让用户的体验更加地好。

记者:在目前的移动互联网发展这么快,在移动端,用户对搜索的需求还是挺高的。一般他想定位一个产品,搜索一个产品的话,他两到三步就能够精准地定位到这个内容。一淘的移动端在这方面做的如何?

公达:移动端的话,目前肯定会考虑。比如说手机的类型是iPhone还是Android之类的,或者也会考虑其他的地方。这些信息的话,肯定是一个个性化的重要信息。但是在移动上面具体有什么样的特点?这肯定也是通过模型计算出来的。因为移动上面我们也会有移动方面个性化的模型,上面可能会体现出移动上面不同的特点来。

相关推荐