Как получить тело ответа на все запросы, загруженные на страницу? - PullRequest
0 голосов
/ 14 ноября 2018

В настоящее время я работаю над инструментом, который требует извлечения данных с веб-страницы.(что-то похожее на выскабливание, но не совсем).Мне нужен способ получить тело ответа для всех запросов, загруженных на страницу.Я нашел решение (confess.js), которое использует phantomjs для извлечения тела основных (инициирующих) запросов.Перечислите URL-адреса, заголовки и файлы cookie для основного и дополнительного запросов, даже размер тела.Но я не могу найти способ извлечь данные тела для подзапросов (ресурсы, такие как JS, CSS, изображения и т. Д. И любые запросы xhr).Что может быть лучшим способом достичь этого?(Я не хочу показывать каждый URL по отдельности, что удваивает количество посещений на моей веб-странице). Любая помощь будет принята с благодарностью.Спасибо.

1 Ответ

0 голосов
/ 14 ноября 2018

есть простой ответ: https://mitmproxy.org/

установите его локально и настройте свой браузер на использование этого прокси.чем вы можете отслеживать весь трафик. (и будет легко поддерживать https)

если вам нужен программный доступ к этим данным, вам лучше взглянуть на некоторые прокси-библиотеки nodejs. (http://anyproxy.io, https://github.com/nodejitsu/node-http-proxy)

вам нужен «обратный прокси», где вы проходите через все запросы, затем вы получаете контроль над запросом / ответом на все исходящие запросы со страницы. Вы можете «ловить» URL-адреса, тела и т. Д...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...