浅谈百度伪原创算法

搜索引擎众多算法中,有一个网页查重技术。首先,说说这个“重”,其实很简单,就是重复内容。我们在网上经常看到相同标题或者内容的文章,一些最新的新闻或者关注度比较高的文章,都会被众多的新闻媒体网站转载。这其实是对用户好的,可以尽量多的让用户看到这篇文章或新闻。不过搜索引擎就有点郁闷了,为何?抓取过来两篇甚至多篇内容相同的内容,就意味着搜索引擎要花费更多的时间去处理多次相同的文章内容。而在搜索引擎索引库中,可能就会索引两份相同的网页。这从系统的效率和检索的质量来看,都是非常不友好的。

那么怎么样处理以上问题呢?这就有网页查重技术的出现了。搜索引擎将内容和格式上的相同相似构成了四种网页相似类型,分别是:1、两个网页内容和格式上完全相同;2、两个网页的内容相同,格式不同;3、两个网页有部分重要内容相同并且格式相同;4、两个网页有部分重要内容相同,但格式不同。

这里有一个Shingle算法,简单点说,这个算法的意思就是:一个长度为L的文档,每隔N个汉字取一个Shingle(瓦片的意思),这样一共截取了L-N+1个Shingle。两篇文章截取的Shingle相互对比,查看相同Shingle的个数,然后除以两个文档的Shingle总数再减去一致的Shingle数量。算出的结果叫做Jaccard系数,这个系数就是判断文章的相似度了。搜索引擎中相似度达到0.2就被判别为两篇文章相似。

判别文章相似度后,还有一个消重的操作,就是消除重复性的内容。如今搜索引擎消重的方式,是保留最早被搜索引擎蜘蛛爬取到的内容。

从上面这个搜索引擎算法里可以简单得到一些想法,就是伪原创的思路。就不细说了,而且搜索引擎的算法在不断的更新,如今更加的细腻,重复性的内容和低质量的内容很容易被搜索引擎检查出来。