индекс файла Lucene - PullRequest
       4

индекс файла Lucene

0 голосов
/ 19 марта 2011

Я должен индексировать запись журнала из захваченных из корпоративных сетей. В текущей реализации каждый протокол имеет индексные файлы в виде файла year / mont / day / lucene, я хочу знать, использую ли я только один файл индекса lucene и каждый день я обновить этот единственный файл, как этот эффект поиска времени? Это значительное увеличение, в текущей ситуации, когда я ищу, я запрашиваю точно за этот день. Текущий: smtp / год / месяц / ау / luceneindex

если я сделаю smtp / luceneindex все idex в одном файле. Дайте мне знать о плюсах и минусах

1 Ответ

1 голос
/ 21 марта 2011

Это зависит от целого ряда факторов.

Когда вы говорите один файл Lucene? Lucene хранит индекс, используя несколько типов файлов, и имеет сегменты, поэтому в любом случае существует более одного файла.

Что и как вы индексируете данные журнала?

Что вы используете для запросов по люценовым индексам, solr ,asticsearch, custom?

Используете ли вы один экземпляр, одну конфигурацию компьютера.

Можете ли вы запустить несколько процессов на отдельных хостах, использовать некоторые для задач поиска и другие для обновления индекса?

Каковы ваши типичные поисковые запросы, оптимизируйте для этих случаев.

Посмотрите на http://elasticsearch.org/ или http://lucene.apache.org/solr/ для параметров распределенного поиска.

У lucene есть опции для запуска в памяти, например, RAMDirectory, который вы можете исследовать.

Будет ли размер однодневного файла проблематичным для администрирования? Будут ли размеры файлов настолько большими по сравнению с диском, ограничения пропускной способности, что при копировании и перемещении возникают проблемы.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...