垂直搜索引擎概述

垂直搜索引擎概述

一、综合搜索引擎和垂直搜索引擎

综合搜索引擎以百度、谷歌的全文检索为典型代表。但是随着人类信息化的进度不断加快,越来越多的信息选择网络作为传播的媒介,这类综合搜索引擎在海量数据下,目标结果中有价值的数据并不多,即“搜索噪音”较大,影响用户体验。

垂直搜索引擎是一种专业的搜索引擎,这里的“专业”是指针对某一个行业或者某一主题。他是综合搜索引擎的细分和延伸,他根据具体的行业或主题特点对互联网上海量信息进行整合,提供用户搜索。垂直搜索引擎的“针对性高”是其最大的优势。目前垂直搜索引擎的应用领域也很多,例如:购物搜索、专利搜索、饮食搜索、房产搜索、人才搜索等。

综上所述,综合搜索引擎和垂直搜索引擎面对不同的用户群体(大众用户和专业用户)各有优劣,因此需要辩证看待,取长补短。

二、垂直搜索引擎基本结构

图1——垂直搜索引擎基本结构图

主题爬虫

网络爬虫是一个能够自动从互联网上抓取网页的程序,是搜索引擎的核心部分。

一般情况下,通用网络爬虫从一个或若干个种子网页开始在互联网上爬行,当网络爬虫从互联网上下载一个网页时,它会提取出当前网页的URL并放入待爬行队列中,如此不断地反复操作直到满足一定的停止条件为止。通用网络爬虫一般采用的搜索策略是深度优先或者广度优先搜索策略。与通用网络爬虫不同的是,主题爬虫并不试图抓取互联网上尽可能多的网页,而是试图尽可能多地抓取与主题相关网页。因此主题爬虫与通用网络爬虫主要存在两方面的区别,首先是主题爬虫需要判断当前所抓取的网页是否与预先设定的主题相关,其次是主题爬虫往往不是采用深度优先或广度优先策略来抓取网页,而是使用了按照相关度的大小来抓取网页的最佳优先策略。

不同主题爬虫的主要区别在于如何计算当期网页的主题相关度、如何预测待抓取URL与主题的相关度以及如何计算待抓取URL的优先级。当前国内外学者已针对这几方面提出了许多不同的主题爬虫设计方案,大致分为以下几种类型:

  • 基于关键词的主题爬虫
  • 基于概念分析的主题爬虫
  • 基于分类器引导的主题爬虫
  • 基于连接分析的主题爬虫
  • 基于隧道技术的主题爬虫
  • 基于DeepWeb的主题爬虫

文本分析(网页信息抽取)

网页信息抽取模块将网页上非结构化的数据抽取成特定的结构化的数据。

索引模块

垂直搜索引擎根据特定行业或主题的专业知识进行加工处理(去重、分类等),然后简历索引后存储到索引数据库。

检索模块

检索模块提供特定的检索语法,用户通过编写检索式获得目标结果,并加工处理(分页、排序、高亮等)呈现给用户。

三、综合搜索引擎和垂直搜索引擎的结合设想

综合搜索引擎和垂直搜索引擎最大的区别即关注的信息范围不同,综合搜索引擎关注互联网上尽可能多的信息,而垂直搜索引擎关注特定行业和主题的信息。

假设互联网上所有的信息能够根据某一标准分类体系进行分类(可想而知这个分类体系是多么庞大与复杂),又假设综合搜索引擎对其囊括的所有信息按照这一标准分类体系进行分类检索,那么综合搜索引擎就等于N个垂直搜索引擎的综合体,并且提供综合(面向大众用户)和垂直(面向专业用户)搜索业务。

在以上假设中面临的难题。

第一难题——针对互联网上海量的信息怎么制定一个合理的标准分类体系?

第二难题——即使存在一个这样的分类体系,怎么对海量的信息进行分类?

第三难题——怎么设计良好的用户体验?让大众用户获得综合信息,让专业用户获得专业信息,而这些操作都很简单、明了。

相关推荐