Lucene的查询语法
Lucene的查询语法
博客分类: LuceneLucene的查询语法
Lucene提供了方便您创建自建查询的API,也通过QueryParser提供了强大的查询语言。
本文讲述Lucene的查询语句解析器支持的语法,Lucene的查询语句解析器是使用JavaCC工具生成的词法解析器,它将查询字串解析为LuceneQuery对象。
项(Term)
一条搜索语句被拆分为一些项(term)和操作符(operator)。项有两种类型:单独项和短语。
单独项就是一个单独的单词,例如"test","hello"。
短语是一组被双引号包围的单词,例如"hellodolly"。
多个项可以用布尔操作符连接起来形成复杂的查询语句(接下来您就会看到)。
注意:Analyzer建立索引时使用的解析器和解析单独项和短语时的解析器相同,因此选择一个不会受查询语句干扰的Analyzer非常重要。
域(Field)
Lucene支持域。您可以指定在某一个域中搜索,或者就使用默认域。域名及默认域是具体索引器实现决定的。
您可以这样搜索域:域名+":"+搜索的项名。
举个例子,假设某一个Lucene索引包含两个域,title和text,text是默认域。如果您想查找标题为"TheRightWay"且含有"don'tgothisway"的文章,您可以输入:
title:"TheRightWay"ANDtext:go
或者
title:"Doitright"ANDright
因为text是默认域,所以这个域名可以不写出。
注意:域名只对紧接于其后的项生效,所以
title:Doitright
只有"Do"属于title域。"it"和"right"仍将在默认域中搜索(这里是text域)。
项修饰符(TermModifiers)
Lucene支持项修饰符以支持更宽范围的搜索选项。
用通配符搜索
Lucene支持单个与多个字符的通配搜索。
使用符号"?"表示单个任意字符的通配。
使用符号"*"表示多个任意字符的通配。
单个任意字符匹配的是所有可能单个字符。例如,搜索"text或者"test",可以这样:
te?t
多个任意字符匹配的是0个及更多个可能字符。例如,搜索test,tests或者tester,可以这样:
test*
您也可以在字符窜中间使用多个任意字符通配符。
te*t
注意:您不能在搜索的项开始使用*或者?符号。
模糊查询
Lucene支持基于LevenshteinDistance与EditDistance算法的模糊搜索。要使用模糊搜索只需要在单独项的最后加上符号"~"。例如搜索拼写类似于"roam"的项这样写:
roam~
这次搜索将找到形如foam和roams的单词。
注意:使用模糊查询将自动得到增量因子(boostfactor)为0.2的搜索结果.
邻近搜索(ProximitySearches)
Lucene还支持查找相隔一定距离的单词。邻近搜索是在短语最后加上符号"~"。例如在文档中搜索相隔10个单词的"apache"和"jakarta",这样写:
"jakartaapache"~10
BoostingaTerm
Luceneprovidestherelevancelevelofmatchingdocumentsbasedonthetermsfound.Toboostatermusethecaret,"^",symbolwithaboostfactor(anumber)attheendofthetermyouaresearching.Thehighertheboostfactor,themorerelevantthetermwillbe.
Lucene可以设置在搜索时匹配项的相似度。在项的最后加上符号"^"紧接一个数字(增量值),表示搜索时的相似度。增量值越高,搜索到的项相关度越好。
Boostingallowsyoutocontroltherelevanceofadocumentbyboostingitsterm.Forexample,ifyouaresearchingforjakartaapacheandyouwanttheterm"jakarta"tobemorerelevantboostitusingthe^symbolalongwiththeboostfactornexttotheterm.Youwouldtype:
通过增量一个项可以控制搜索文档时的相关度。例如如果您要搜索jakartaapache,同时您想让"jakarta"的相关度更加好,那么在其后加上"^"符号和增量值,也就是您输入:
jakarta^4apache
Thiswillmakedocumentswiththetermjakartaappearmorerelevant.YoucanalsoboostPhraseTermsasintheexample:
这将使得生成的doucment尽可能与jakarta相关度高。您也可以增量短语,象以下这个例子一样:
"jakartaapache"^4"jakartalucene"
Bydefault,theboostfactoris1.Although,theboostfactormustbepositive,itcanbelessthan1(i.e..2)
默认情况下,增量值是1。增量值也可以小于1(例如0.2),但必须是有效的。
布尔操作符
布尔操作符可将项通过逻辑操作连接起来。Lucene支持AND,"+",OR,NOT和"-"这些操作符。(注意:布尔操作符必须全部大写)
OR
OR操作符是默认的连接操作符。这意味着如果两个项之间没有布尔操作符,就是使用OR操作符。OR操作符连接两个项,意味着查找含有任意项的文档。这与集合并运算相同。符号||可以代替符号OR。
搜索含有"jakartaapache"或者"jakarta"的文档,可以使用这样的查询:
"jakartaapache"jakarta
或者
"jakartaapache"ORjakarta
AND
AND操作符匹配的是两项同时出现的文档。这个与集合交操作相等。符号&&可以代替符号AND。
搜索同时含有"jakartaapache"与"jakartalucene"的文档,使用查询:
"jakartaapache"AND"jakartalucene"
+
"+"操作符或者称为存在操作符,要求符号"+"后的项必须在文档相应的域中存在。
搜索必须含有"jakarta",可能含有"lucene"的文档,使用查询:
+jakartaapache
NOT
NOT操作符排除那些含有NOT符号后面项的文档。这和集合的差运算相同。符号!可以代替符号NOT。
搜索含有"jakartaapache",但是不含有"jakartalucene"的文档,使用查询:
"jakartaapache"NOT"jakartalucene"
注意:NOT操作符不能单独与项使用构成查询。例如,以下的查询查不到任何结果:
NOT"jakartaapache"
-
"-"操作符或者禁止操作符排除含有"-"后面的相似项的文档。
搜索含有"jakartaapache",但不是"jakartalucene",使用查询:
"jakartaapache"-"jakartalucene"
分组(Grouping)
Lucene支持使用圆括号来组合字句形成子查询。这对于想控制查询布尔逻辑的人十分有用。
搜索含有"jakarta"或者"apache",同时含有"website"的文档,使用查询:
(jakartaORapache)ANDwebsite
这样就消除了歧义,保证website必须存在,jakarta和apache中之一也存在。
转义特殊字符(EscapingSpecialCharacters)
Lucene支持转义特殊字符,因为特殊字符是查询语法用到的。现在,特殊字符包括
+-&&||!(){}[]^"~*?:/
转义特殊字符只需在字符前加上符号/,例如搜索(1+1):2,使用查询
/(1/+1/)/:2