В настоящее время я работаю над проектом веб-архивирования.По сути, мы пытаемся заархивировать коллекцию веб-сайтов (используя heritrix crawler ) и предоставить доступ к архивному содержимому через веб-интерфейс.
Мы также предлагаем полнотекстовый поиск по всемуархивы.В настоящее время индекс создается с использованием nutchwax (настраиваемая версия apache Nutch, адаптированная для индексации файлов .warc
, сгенерированных с помощью heritrix ).Nutchwax выводит индекс Lucene, и для его использования в Solr все, что нужно сделать, - это создать правильную схему.
Это все сделано и работает так, как должно, однако архив не статичен, и периодически создаются новые файлы .warc
.
Теперь я могу сгенерировать новый индекс, объединить его с существующим и импортировать обратно в Solr.Однако для этого необходимо перезапустить Solr.Было бы здорово, если бы индекс мог обновляться «на лету», как это обычно бывает (при обновлении индекса через http-запросы)
У кого-нибудь есть идеи, как это можно сделать?Моим первым шагом было создание файлов .xml
из индексного файла Lucene и публикация их в Solr.Стоит ли попробовать или есть более элегантные решения?