Как получить предложения правописания из synonyms.txt в Solr? - PullRequest
2 голосов
/ 13 сентября 2011

У меня есть список слов с ошибками и исправлениями в файле synonyms.txt.Как я могу использовать это в solr для орфографических предложений?

например, synonyms.txt содержит следующие записи:

laptap => laptop
delll => dell

Когда я запрашиваю "laptap" для сервера solr, я должен получить предложение как "Вы имели в виду ноутбук?

Я знаю, что schema.xml будет выглядеть так:

<fieldType name="textSpell" class="solr.TextField" positionIncrementGap="100" omitNorms="true">
<analyzer type="index">
   <tokenizer class="solr.StandardTokenizerFactory"/>
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
     <filter class="solr.LowerCaseFilterFactory"/>
     <filter class="solr.StandardFilterFactory"/>
</analyzer>
<analyzer type="query">
     <tokenizer class="solr.StandardTokenizerFactory"/>
     <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>
     <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
     <filter class="solr.LowerCaseFilterFactory"/>
     <filter class="solr.StandardFilterFactory"/>
</analyzer> 
</fieldType>

А как насчет solrconfig.xml?Я не хочу использовать индекс, так как у меня уже есть список.Есть идеи?

1 Ответ

2 голосов
/ 13 сентября 2011

Обновление с учетом требования не создавать индекс / словарь из плоского файла:

  1. Посмотрите на функциональность Предложение> 1007 *, которая была добавлена ​​вSolr 3.1
  2. Реализация пользовательского SpellCheckComponent , который имеет желаемое поведение (хотя я думаю, что Suggester близок к тому, что вы хотите).

Предыдущаясовет:

Вот хорошая статья о настройке проверки орфографии в Solr, которая включает в себя, как настроить проверку орфографии на основе файлов.Вы сможете выполнить это и заменить файл spellings.txt в примере конфигурации на файл synonyms.txt.

Начало работы Проверка правописания с помощью Apache Lucene и Solr

...