Индексирование и поиск французского текста с диакритическими знаками в Lucene - PullRequest
4 голосов
/ 29 июня 2010

Я использую Lucene Search.

Я загрузил французский файл (french.txt) со следующим содержимым.

multimédia francophone pour l'enseignement du français langue étrangère

Если я ищу francophone, он показывает файл в результатах поиска. Но когда я ищу multimédia или français или étrangère, он не показывает никаких результатов.

Я пытался использовать org.apache.lucene.analysis.fr.FrenchAnalyzer, но он все еще не работает.

Как мы можем искать французские слова, такие как те, что выше?

Ответы [ 3 ]

0 голосов
/ 29 июня 2010

КСТАТИ. Если вы используете ISOLatin1AccentFilter, обратите внимание, что он устарел в пользу ASCIIFoldingFilter

0 голосов
/ 09 июля 2010

Обычно у вас есть 2 варианта:

  1. Индексируйте и ищите французские файлы с помощью Snowball Analyzer для французского
  2. Индексируйте французские документы как обычно, но ищите с FuzzyQuery (не оченьточный, но может быть достаточно в вашем конкретном случае).
0 голосов
/ 29 июня 2010

Используете ли вы ISOLatin1AccentFilterFactory в анализаторах для поля, где индексируется этот текст? Убедитесь, что если он у вас есть для анализатора индекса, у вас есть и для анализатора запросов.

...