извлечение графики из просканированных сайтов (файлы ARC) - PullRequest
0 голосов
/ 21 июня 2010

Я работаю с файлами ARC, сгенерированными сканированием Heritrix. Когда я просматриваю эти страницы на Wayback Machine, похоже, что большая часть графики загружается с моего локального компьютера, поэтому я предполагаю, что эта графика хранится в файлах ARC. Это верно? Если да, то как лучше всего извлечь изображения?

1 Ответ

0 голосов
/ 21 июня 2010

Я нашел одно решение, Perl-скрипт с именем arc_extractor: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

Извлекает все файлы из файла ARC, разделенные папкой в ​​соответствии с сайтом, с которого они были получены. И да, он включает в себя файлы изображений.

Сценарий не слишком элегантен ... поэтому, если у кого-то есть какие-либо предложения, я бы заинтересовался их изучением.

...