Веб-скребок, который включает в себя внешние скрипты / источники - PullRequest
0 голосов
/ 30 августа 2018

Я пытаюсь автоматизировать процесс определения, какие сторонние библиотеки javascript запускаются на веб-сайтах. Я хочу проверить это для топ-миллиона Alexa, поэтому ручное тестирование выходит за рамки.

Я попытался написать скрипт на python, который перетаскивает страницу и проверяет предварительно скомпилированный список, но этого не хватает. Например, на twitch umatrix показывает, что он использует google-analytics, но ссылка на него сохраняется в файле .js. Когда я открываю сайт, эти ссылки не отслеживаются, поэтому я никогда не загружаю google-analytics.

Есть ли фреймворк или библиотека, которая выполняет эту работу? Если нет, то есть ли у вас какие-либо советы о том, как я мог бы выполнить эту задачу?

Я уже поиграл с просьбами, красивым супом, фантомами и селеном, но не смог найти никаких решений.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...