Я использую Lucene.net для индексации контента, документов и т. Д. На веб-сайтах. Индекс очень прост и имеет такой формат:
LuceneId - unique id for Lucene (TypeId + ItemId)
TypeId - the type of text (eg. page content, product, public doc etc..)
ItemId - the web page id, document id etc..
Text - the text indexed
Title - web page title, document name etc.. to display with the search results
У меня есть следующие варианты, чтобы адаптировать его для обслуживания многоязычного контента:
- Создайте отдельный индекс для каждого языка. Например. Lucene-enGB, Lucene-frFR и т. Д.
- Сохраните один индекс и добавьте в него дополнительное поле языка, чтобы отфильтровать результаты.
Какой вариант лучше - или есть другой? Раньше я не использовал несколько индексов, поэтому склоняюсь ко второму.