обновление Solr из индекса Lucene - PullRequest
1 голос
/ 27 марта 2012

В настоящее время я работаю над проектом веб-архивирования.По сути, мы пытаемся заархивировать коллекцию веб-сайтов (используя heritrix crawler ) и предоставить доступ к архивному содержимому через веб-интерфейс.

Мы также предлагаем полнотекстовый поиск по всемуархивы.В настоящее время индекс создается с использованием nutchwax (настраиваемая версия apache Nutch, адаптированная для индексации файлов .warc, сгенерированных с помощью heritrix ).Nutchwax выводит индекс Lucene, и для его использования в Solr все, что нужно сделать, - это создать правильную схему.

Это все сделано и работает так, как должно, однако архив не статичен, и периодически создаются новые файлы .warc.

Теперь я могу сгенерировать новый индекс, объединить его с существующим и импортировать обратно в Solr.Однако для этого необходимо перезапустить Solr.Было бы здорово, если бы индекс мог обновляться «на лету», как это обычно бывает (при обновлении индекса через http-запросы)

У кого-нибудь есть идеи, как это можно сделать?Моим первым шагом было создание файлов .xml из индексного файла Lucene и публикация их в Solr.Стоит ли попробовать или есть более элегантные решения?

1 Ответ

1 голос
/ 27 марта 2012

Возможно, вы могли бы использовать несколько ядер, чтобы выполнить то, что вам нужно. См. Solr Wiki - CoreAdmin для получения более подробной информации. Я думаю, что вы могли бы использовать возможность MergeIndexes или возможность Обмен ядер для лучшего опыта в вашем сценарии.

...