Lucene индексация для структурированного документа, где каждая текстовая строка имеет метаданные - PullRequest
2 голосов
/ 22 сентября 2010

У меня есть структура документа, в которой с каждой текстовой строкой документа связаны некоторые метаданные. Результат поиска должен содержать строку и метаданные для строки.

В настоящее время я храню каждую такую ​​строку в виде документов Lucene и храню данные метаданных как одно из неиндексированных полей. То есть я создаю и добавляю структуру Lucene Document для каждой строки. Меня беспокоит то, что в индексе может оказаться слишком много Документов.

Есть ли более элегантный подход?

Спасибо

Ответы [ 2 ]

1 голос
/ 22 сентября 2010

Лично я бы проиндексировал документы как обычно и позже выяснил номер метаданных / строки.

Нет вопроса о том, может ли Lucene справиться с таким количеством документов, однако это может несколько ухудшить результаты поиска. Поскольку вы можете выполнять поиск, когда вы ищете несколько терминов в непосредственной близости друг от друга, однако это, очевидно, не будет работать, если термины разделены на несколько документов (строк).

1 голос
/ 22 сентября 2010

Сколько "слишком много"?Известно, что Lucene обрабатывает сотни миллионов записей в одном индексе, поэтому я сомневаюсь, что у вас возникнут проблемы.Тем не менее, ничто не заменит тестирования и сравнительного анализа, чтобы увидеть, подходит ли этот подход для ваших нужд.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...