Lucene / Solr: какие обработчики запросов использовать для строк запросов на китайском или японском? - PullRequest
0 голосов
/ 17 марта 2011

Для моего сервера Solr некоторые строки запроса будут на азиатских языках, таких как китайский или японский.

Для таких строк запроса будет работать обработчик запросов Standard или Dismax? Насколько я понимаю, и Standard, и обработчик Dismax разбивают строку запроса на пробелы. И это не сработает для китайцев или японцев, верно?

В таком случае, какой обработчик запросов я должен использовать? И если мне нужно настроить пользовательские обработчики запросов для этих языков, как мне это сделать?

Спасибо.

Ответы [ 2 ]

1 голос
/ 30 апреля 2012

Ваши запросы будут анализироваться в соответствии с анализаторами полей, которые вы запрашиваете, используете ли вы стандартный анализатор запросов Solr или анализатор запросов DisMax.

Так что в этом случае, как говорит Маурисио, вопрос в том, как ваши строки текста анализируются в токены.

Для китайского и корейского языков есть CJK, который выполняет базовый анализ N-граммы, разбивая текст на байтовые пары. Это не лучший способ анализа с точки зрения релевантности и размера индекса, но он работает.

Для японцев я настоятельно рекомендую новые морфологические анализаторы Kuromoji в Solr и Lucene 3.6.0. Он использует словарь и некоторую другую статистику для токенизации в реальных терминах. Это позволяет вам делать все виды действительно превосходного качества

Документы в настоящее время редки, поэтому проверьте эти ссылки ...

1 голос
/ 17 марта 2011

Речь идет не об обработчике запросов, а об анализаторах языка.

Для этой цели у Lucene есть пакет CJK .См. здесь для получения информации об использовании его в Solr .

См. Также этот поток для альтернатив.

...