Моя конечная цель - предоставить рабочую копию существующего веб-сайта.
Я использовал httrack
, что довольно неплохо, однако он недостаточно умен, чтобы обнаруживать глубоко вложенные зависимые ресурсы, например, динамические ресурсы, полученные из js / flash и т. Д.
Я хочу написать скрипт, который ищет все 404 ответа на вкладке Console
в Chrome и, используя URI, загружать файлы с внешнего веб-сайта локально.
Например, скажем, я получил это:
404 http://site.localhost/media/images/blah.png
404 http://site.localhost/media/xml/file.xml
Я бы хотел, чтобы мой сценарий прошел через все 404 и обнаружил, является ли HOST 'site.localhost', а затем запустил команду bash, которая WGETs запрашивает ресурс из http://actualsite.com/media/images/blah.png.
Если кто-то может дать представление о том, как я могу программно получить доступ к этой части Консоли, и как я могу выполнять команды bash с этим, тогда я настроен.