Я пытаюсь очистить несколько веб-страниц с помощью PhantomJS. Однако я не могу получить метаинформацию, которая мне нужна, с помощью PhantomJS.
Используя wget, я смог получить как количество перенаправлений, так и IP-адрес объектов. Тем не менее, я не могу найти то же самое с помощью PhantomJS. Я должен использовать PhantomJS из-за других требований.
Я пробовал использовать wget:
wget -4 -E -H -K -p -e robots=off --output-file=log.txt <url>
Затем просто проанализировал log.txt, используя python:
logFile = open('log.txt', 'r')
for line in logFile:
if 'HTTP request sent, awaiting response... 30' in line:
numRedirects = numRedirects + 1
if 'Connecting to' in line:
ip = line.split('|')[1]
В PhantomJS самое близкое, что я нашел для перенаправления:
page.onNavigationRequested
Однако мне трудно проверить, был ли редирект.
Единственное, что я могу думать о получении IP - это запускаться отдельно в python
import socket
IP = socket.gethostbyname(link)
но это может указывать неверный IP, если на странице есть перенаправления.