Чего я пытаюсь достичь:
- HTTP GET содержимое сайта (скажем, google.com)
- Затем используйте какой-нибудь хук или фильтр, который будет перехватывать все ресурсы, которые пытается загрузить эта страница (например, файлы CSS, все файлы JavaScript, все изображения, все фреймы и т. Д.)
Первое, что приходит в голову, - это проанализировать загруженную страницу / код и извлечь все теги, которые могут ссылаться на ресурс, однако их очень много, и некоторые из них хитрые, как фон изображения, объявленный в CSS, пример:
body {background-image:url('paper.gif');}
Кроме того, мне нужно перехватить все ресурсы, которые предназначены для загрузки через JavaScript. Например, есть функция JS, которая будет генерировать URL-адрес, а затем интерпретировать его для загрузки ресурса.
По этой причине я думаю, что мне нужен какой-то крючок или фильтр / монитор.
Язык программирования не имеет значения (хотя было бы неплохо что-то, что работает на Unix-системах).
ОБНОВЛЕНИЕ: это должно быть автоматизированное решение.
Спасибо.