Есть ли какая-либо проверка орфографии lucene / solr, которая может обрабатывать вставки / удаления пробелов? - PullRequest
1 голос
/ 08 марта 2012

Насколько я знаю, почти все выполняют проверку орфографии на основе одного термина запроса и не могут вносить изменения во весь входной запрос, чтобы увеличить охват в corpra. У меня есть одна в lingpipe, но это очень дорого

Итак, мой вопрос, какова лучшая альтернатива Apache для lingpipe, как проверка орфографии?

1 Ответ

0 голосов
/ 10 марта 2012

Проверщики правописания в люцене обрабатывают пробел как любой другой персонаж. Таким образом, в общем случае вы можете направлять им свои журналы запросов или что-либо еще, а также проверять орфографию / автозаполнять полные запросы.

Для lucene это должно сработать, для решения проблемы необходимо убедиться, что QueryConverter не разделяет ваши условия ... см. https://issues.apache.org/jira/browse/SOLR-3143

С другой стороны, эти подсказчики в настоящее время работают со всем вводом, поэтому, если вы хотите предложить запросы, которые никогда не искались ранее, вместо этого вы хотите что-то, что, возможно, будет принимать только последние N слов контекста, аналогично http://googleblog.blogspot.com/2011/04/more-predictions-in-autocomplete.html.

Я надеюсь, что мы вскоре представим этот стиль подсказки в качестве альтернативы, возможно, под https://issues.apache.org/jira/browse/LUCENE-3842.

Но имейте в виду, что это подходит не для всех целей, поэтому я думаю, что это будет просто вариант. Например, если вы занимаетесь электронной коммерцией, нет смысла предлагать товары, которые вы не продаете:)

...