阿拉丁

阿拉丁:

阿拉丁是搜索引擎公司百度推出的一个通用开放平台,它将接口开放给独特信息数据的拥有者,从而解决现有搜索引擎无法抓取和检索的暗网信息。

阿拉丁计划是新一代搜索引擎。

该命名,寓含着百度的这个平台可以像神灯那样帮助用户实现最便捷地获取信息的愿望。“阿拉丁”计划将由百度创建并于2009年年初面世,相关研发结果也将相继体现到目前的搜索体系之中。 阿拉丁计划旨在超越现有Web内容的限制,对包括众多未纳入搜索引擎检索体系的“暗网”在内的所有信息进行更深一步的分析、融合、处理,以使这些信息能最富有效率地被用户通过搜索引擎进行检索,从而逐步实现“只在一个最为简单的搜索框里面,蕴藏了全人类最为丰富多彩的信息世界!目前能被搜索引擎检索到的信息只占所有信息中非常小的一部分,大部分信息存在于Hidden Web,亦即“暗网”之中。而“暗网”之所以存在,一方面是很多人类信息没有Web化;另一方面即使一些信息Web化了,也没有纳入搜索引擎的检索体系。正是认识到“暗网”信息的存在和巨大价值,百度开始着手启动“阿拉丁平台”研发计划,期望能挖掘出更多存在于“暗网”之中的有价值信息,将更多的已知和未知信息分门别类融合,有序纳入搜索体系。

 要想了解阿拉丁计划,首先就要了解什么是“暗网”,因为这个计划是宣称要照亮“暗网”,完全改变搜索体验的。

暗网(hidden web)这个概念对于大众很新鲜,但是这是搜索圈里的老话题了。早在2003年就有美国人C·谢尔曼写成了一本学术专著专门讨论这一问题,只不过通常把它翻译成“看不见”的网站,这本著作已经被译成中文——《“看不见”的网站:Internet专业信息检索指南》,成为信息检索专业的必读书目。  “看不见”的网站就是被搜索引擎覆盖不到的网站,以下就是对这些内容的分类及其原因。   用更加通俗的分类来说,“看不见”的网站只有两种。   一种是技术的原因,很多网站本身不规范、或者说互联网本身缺少统一规则,导致了搜索引擎的爬虫无法识别这些网站内容并抓取,这不是搜索引擎自身就能解决的问题,而是有赖整个网络结构的规范化,而谷歌正在尝试的“云计算”就是要从根本解决这一问题。从这个意义上说,谷歌更符合所谓“阿拉丁计划”,只不过谷歌没有这样提而已。   另一个原因则是很多网站根本就不愿意被搜索引擎抓取,比如考虑到版权保护内容、个人隐私内容等等,很多网站都在屏蔽百度、比如最近最大的视频分享网站优酷也宣布屏蔽百度一样,这更不是搜索引擎能解决的问题了。如果他们能被百度抓取到,就是百度违法了。   所以说,所谓的“阿拉丁计划”不过是拿搜索圈子里一个古老的话题炒剩饭,它的本质就是扩大搜索数据库,这是搜索引擎的常规工作,“最多就是优化过的蜘蛛加上一个新的竞价排名表现界面”(著名互联网博客笨狸语)。