где сканируемые файлы хранятся в веб-сканере Heritrix - PullRequest
2 голосов
/ 20 мая 2010

я хочу знать, где хранятся просканированные файлы в веб-сканере Heritrix ...

спасибо и заранее

1 Ответ

0 голосов
/ 20 мая 2010

Из руководства разработчика :

По умолчанию, Heritrix записывает весь свой обход на диск, используя ARCWriterProcessor . Этот процессор записывает найденный контент для сканирования в виде файлов ARC Internet Archive. Формат файла ARC описан здесь: Формат файла дуги . Heritrix записывает файлы ARC версии 1 1 .

Файлы ARC находятся в папке arcs/ вашего экземпляра сканирования. Вы можете изменить местоположение в настройках веб-интерфейса Heritrix.

Вместо ARCWriterProcessor по умолчанию вы можете установить для него WARCWriterProcessor (файлы WARC), для MirrorWriterProcessor (контейнера вообще нет) или Kw3WriterProcessor . AFAIK, вы могли бы даже установить несколько авторов. Обратите внимание, что при выборе MirrorWriterProcessor не все файлы могут быть записаны на диск, в зависимости от файловой системы, в которую вы используете для записи файлов.

[1] Файлы ARC интернет-архива

...