Question

Я работаю с файлами ARC, сгенерированными сканированием Heritrix. Когда я просматриваю эти страницы на Wayback Machine, похоже, что большая часть графики загружается с моего локального компьютера, поэтому я предполагаю, что эта графика хранится в файлах ARC. Это верно? Если да, то как лучше всего извлечь изображения?

rayan · Answer 1 · 21 июня 2010

Я нашел одно решение, Perl-скрипт с именем arc_extractor: https://wiki.lib.umn.edu/wupl/DI2.HowToCrawl/arc_extractor.txt

Извлекает все файлы из файла ARC, разделенные папкой в соответствии с сайтом, с которого они были получены. И да, он включает в себя файлы изображений.

Сценарий не слишком элегантен ... поэтому, если у кого-то есть какие-либо предложения, я бы заинтересовался их изучением.

извлечение графики из просканированных сайтов (файлы ARC)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

извлечение графики из просканированных сайтов (файлы ARC)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы