lucene+nutch学习笔记一:搜索引擎的一些常识
1常用搜索引擎
搜索引擎是我们现在网络生活中已经离不开的东西,能上网的人基本上都会用它。
目前我们用的比较多的搜索引擎是google,baidu这两个,程序员一般都有google,中国人大部分用baidu,google的英文搜索做的比较好!baidu的中文分词比较强,虽然它有时候应为一些商业的目的性不怎么受欢迎。。。。,雅虎其实也是比较受欢迎的。
2其他的搜索引擎
主要有 http://www.sougo.com
http://www.soso.com
http://www.altavista.com
http://www.youdao.com
还有就是北大天网,这个据说是军方用的。比较老了。
3搜索引擎的分类。
按领域分:
通用搜索引擎:google,baidu(主要是服务范围比较广)
垂直搜索引擎:针对冒一个领域。
信息类型分:
网页
声音
视频
图片
工作方式分:
基于目录的:手工收集
基于爬虫的:爬虫收集
元搜索引擎:借助别人的搜索
4搜索引擎的阶段:
初级阶段:Archie系统
第一代:yahoo,altavista,主要是手工收集
第二代:爬虫
第三代:研发中
5未来发展趋势:
社区化:SNS
个性化:
智能化: