Я пытаюсь проиндексировать в Lucene поле, которое может иметь литерал RDF на разных языках.
Большинство подходов, которые я видел до сих пор:
Используйте один индекс, где каждый документ имеет поле для каждого языка, который он использует, или
Используйте M индексов, где M - количество языков в корпусе.
Lucene 2.9+ имеет функцию Payload, которая позволяет прикреплять атрибуты к термину. Кто-нибудь использует этот механизм для хранения информации о языке (или других атрибутах, таких как типы данных)? Как производительность по сравнению с двумя другими подходами? Любой указатель на исходный код, показывающий, как это делается, поможет. Спасибо.