Lucene QueryParser интерпретирует 'И ИЛИ' как команду? - PullRequest
4 голосов
/ 10 августа 2010

Я звоню в Lucene, используя следующий код (точнее PyLucene):

analyzer = StandardAnalyzer(Version.LUCENE_30)
queryparser = QueryParser(Version.LUCENE_30, "text", analyzer)
query = queryparser.parse(queryparser.escape(querytext))

Но подумайте, если это содержание querytext:

querytext = "THE FOOD WAS HONESTLY NOT WORTH THE PRICE. MUCH TOO PRICY WOULD NOT GO BACK AND OR RECOMMEND IT"

InВ этом случае «ИЛИ» отключает анализатор запросов, хотя я использую queryparser.escape.Как мне избежать следующего сообщения об ошибке?

    Java stacktrace:
org.apache.lucene.queryParser.ParseException: Cannot parse 'THE FOOD WAS HONESTLY NOT WORTH THE PRICE. MUCH TOO PRICY WOULD NOT GO BACK AND OR RECOMMEND IT': Encountered " <OR> "OR "" at line 1, column 80.
Was expecting one of:
    <NOT> ...
    "+" ...
    "-" ...
    "(" ...
    "*" ...
    <QUOTED> ...
    <TERM> ...
    <PREFIXTERM> ...
    <WILDTERM> ...
    "[" ...
    "{" ...
    <NUMBER> ...
    <TERM> ...
    "*" ...

 at org.apache.lucene.queryParser.QueryParser.parse(QueryParser.java:187)
     ....
 at org.apache.lucene.queryParser.QueryParser.generateParseException(QueryParser.java:1759)
 at org.apache.lucene.queryParser.QueryParser.jj_consume_token(QueryParser.java:1641)
 at org.apache.lucene.queryParser.QueryParser.Clause(QueryParser.java:1268)
 at org.apache.lucene.queryParser.QueryParser.Query(QueryParser.java:1207)
 at org.apache.lucene.queryParser.QueryParser.TopLevelQuery(QueryParser.java:1167)
 at org.apache.lucene.queryParser.QueryParser.parse(QueryParser.java:182)

Ответы [ 3 ]

1 голос
/ 12 августа 2010

queryparser.parse экранирует только специальные символы (как показано на этой странице ) и оставляет «И ИЛИ» без изменений, поэтому в вашем случае это не будет работать.Предположительно, вы также использовали StandardAnalyzer для анализа текста, поэтому термины в вашем индексе уже в нижнем регистре.Таким образом, вы можете изменить всю строку запроса в нижний регистр, прежде чем передать ее запросному парсеру.Строчные и "и" или "не считаются операторами, поэтому" и или "не приводят к отключению анализатора запросов.

1 голос
/ 10 августа 2010

Это не просто OR, это AND OR.

Я использую следующий обходной путь:

query = queryparser.parse(queryparser.escape(querytext.replace("AND OR", "AND or")))
0 голосов
/ 10 сентября 2014

Я понимаю, что опаздываю на вечеринку, но лучше заключить в кавычки строку поиска:

querytext = "\"THE FOOD WAS ... \""
...