Как вы архивируете весь сайт для просмотра в автономном режиме? - PullRequest
53 голосов
/ 12 февраля 2009

Мы фактически много раз сжигали статические / архивные копии наших сайтов asp.net для клиентов. Мы использовали WebZip до сих пор, но у нас были бесконечные проблемы со сбоями, загруженными страницами, которые не были повторно связаны правильно, и т. Д.

Нам нужно приложение, которое сканирует и загружает статические копии всего на нашем сайте asp.net (страницы, изображения, документы, CSS и т. Д.), А затем обрабатывает загруженные страницы, чтобы их можно было просматривать локально без подключения к Интернету (избавиться от абсолютных ссылок в ссылках и т. д.). Чем больше идиотских доказательств, тем лучше. Это кажется довольно распространенным и (относительно) простым процессом, но я пробовал несколько других приложений и был действительно не впечатлен

У кого-нибудь есть программное обеспечение для архивирования, которое они бы порекомендовали? У кого-нибудь есть действительно простой процесс, которым они поделятся?

Ответы [ 9 ]

65 голосов
/ 12 февраля 2009

Вы можете использовать wget :

wget -m -k -K -E http://url/of/web/site
37 голосов
/ 12 февраля 2009

В Windows вы можете посмотреть HTTrack . Это очень настраиваемый, позволяющий вам установить скорость загрузки. Но вы можете просто указать его на веб-сайте и запустить без какой-либо настройки.

По моему опыту, это был действительно хороший инструмент и хорошо работает. Некоторые вещи, которые мне нравятся в HTTrack:

  • Лицензия с открытым исходным кодом
  • Возобновление остановленных загрузок
  • Может обновить существующий архив
  • Вы можете настроить его на неагрессивность при загрузке, чтобы не тратить пропускную способность и пропускную способность сайта.
6 голосов
/ 02 ноября 2015

Wayback Machine Downloader от hartator - это просто и быстро.

Установите через Ruby, затем запустите с нужным доменом и дополнительной отметкой времени из Интернет-архива .

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000
4 голосов
/ 12 февраля 2009

Я использую Blue Crab на OSX и WebCopier на Windows.

2 голосов
/ 12 февраля 2009

wget -r -k

... и изучите остальные варианты. Я надеюсь, что вы следовали этим правилам: http://www.w3.org/Protocols/rfc2616/rfc2616-sec9.html, поэтому все ваши ресурсы в безопасности с запросами GET.

1 голос
/ 09 марта 2015

Если ваши клиенты ведут архивирование на предмет соответствия требованиям, вы хотите убедиться, что контент может быть аутентифицирован. Перечисленные параметры подходят для простого просмотра, но они не являются юридически допустимыми. В этом случае вы ищете метки времени и цифровые подписи. Гораздо сложнее, если вы делаете это самостоятельно. Я бы предложил такую ​​услугу, как PageFreezer .

1 голос
/ 24 апреля 2013

Для пользователей OS X я обнаружил, что найденное приложение sitesucker здесь работает хорошо, ничего не настраивая, кроме как по глубине следования ссылкам.

1 голос
/ 12 февраля 2009

Я просто использую: wget -m <url>.

0 голосов
/ 12 февраля 2009

Я использую HTTrack уже несколько лет. Он прекрасно обрабатывает все межстраничные ссылки и т. Д. Моя единственная жалоба заключается в том, что я не нашел хорошего способа ограничить доступ к этому сайту. Например, если есть сайт www.foo.com/steve, который я хочу заархивировать, он, вероятно, будет переходить по ссылкам на www.foo.com/rowe и архивировать его тоже. В противном случае это здорово. Настраиваемая и надежная.

...