Использование python запросов к действиям браузера mimi c для очистки веб-сайта - PullRequest
0 голосов
/ 06 мая 2020

Я хотел бы очистить Wayback Machine (в частности, здесь ).

Используя Selenium, довольно просто получить желаемые данные (в частности, , я хочу значения rgb каждой ячейки, соответствующие каждому дню , в основном это: <rect class="calendar-heatmap-cell" width="12" height="12" x="178" y="2" fill="rgb(121, 174, 133)"></rect>). Я могу прокрутить вниз, чтобы запустить загрузку данных более старых лет, и сохранить источник страницы, чтобы получить то, что я хочу.

Однако, поскольку я пытаюсь очистить множество веб-сайтов, я хотел бы использовать python запросов вместо этого. Непосредственное посещение этого веб-сайта не приводит к извлечению html таблиц. Я полагаю, это потому, что ничего не запускает загрузку данных. Добавление User-Agent в заголовок ничего не делает.

Проверяя сетевой трафик c (F12 в Chrome, затем проверяю Сеть), я обнаружил, что прокручиваю вниз, чтобы получить данные за год (давайте скажем, 2015) эффективно отправляет запрос на получение на https://gext-api.archive.org/services/simhash/simhash?year=2015&url=apple.com&compress=1. Прямая отправка запросов на получение по этому URL-адресу с запросами python, однако возвращает даты и временные метки с ha sh значениями ([[2018, [1, [1, ["105318", 0], ["203525", 0], ["003823", 17]],…],…]],…}), которые нельзя легко / напрямую использовать для определения масштабов изменений веб-сайта.

Итак, мой вопрос: Зная, что запросы на получение являются ключом к получению информации (хотя она хешируется), как я могу вернуть фактические html веб-сайта после загрузки данных ( скажем, на 2015 год)?

Потенциальным способом было бы установить sh устойчивое соединение с исходным веб-сайтом , а затем отправить запросы на получение здесь , чтобы запустить загрузку данных и каким-то образом получить обновленный веб-сайт. Я пытался использовать Session в запросах, но похоже, что два запроса на получение будут выполняться независимо, вместо того, чтобы запускать загрузку данных на исходном веб-сайте и затем возвращать html таблиц.

Заранее спасибо!

...