Простой бот, чтобы получить реальный URL и реальный контент - PullRequest
0 голосов
/ 21 апреля 2019

У меня есть URL, который перенаправляет на другое доменное имя каждый раз, когда я открываю его в браузере. Содержимое каждого домена, на который я перенаправлен, отображается ТОЛЬКО, если я перенаправлен с этого основного URL.
Другими словами: если я открою один из всех перенаправленных URL-адресов прямо в новом окне браузера, он покажет мне пустую страницу.

Я пытаюсь создать небольшого бота, который сможет справиться с этими двумя основными задачами:
1) Получить доменные имена, которые URL перенаправляет;
2) Получить реальное содержание этих перенаправленных доменных имен;

Я пытаюсь сделать это с помощью cURL, включая:

curl_setopt ($ ch, CURLOPT_COOKIE, 'tmpfile.tmp');
curl_setopt ($ ch, CURLOPT_COOKIEJAR, 'tmpfile.tmp');
curl_setopt ($ ch, CURLOPT_COOKIEFILE, 'tmpfile.tmp');

но все, что я могу получить, это следующий исходный код основного URL:

HTTP / 1.1 200 OK
Дата: сб, 20 апреля 2019 22:38:21 GMT
Content-Type: text / html; charset = utf-8
Передача-кодировка: чанки
Подключение: keep-alive
X-Powered-By: PHP / 5.4.16
Alt-Svc: h2 = ": 443"; ма = 60
Сервер: cloudflare
CF-RAY: 4caa9baab8cdbd98-AMS



<\ title> Идет загрузка, подождите ... <\ title>

window.name = String (Math.floor (Math.random () * 101) +100);
if (window.opener) {window.opener = null; }
window.location.replace ( "/ CGI-BIN / out.cgi л = NULL?");

Идет загрузка, пожалуйста подождите ...


Пожалуйста, помогите мне сделать сценарий, который достаточно притворяется, чтобы быть постоянным посетителем веб-сайта и иметь возможность собирать эти данные.

Этот проект для очень хорошего дела, и любая помощь будет очень признательна!

1 Ответ

0 голосов
/ 22 апреля 2019

Я открываю один из всех перенаправленных URL-адресов прямо в новом окне браузера, и он отображает пустую страницу.

тогда вам не следует повторно использовать куки, потому что этокак веб-сайт проверяет, является ли он тем же пользователем с новым окном браузера или совершенно новым браузером, но похоже, что ваш код пытается повторно использовать файлы cookie (он использует статический жестко закодированный файл coookie, судя по всему, если вынужен временный файл, затем используйте tmpfile () или просто сохраните cookie в оперативной памяти)

, и эта страница выглядит очень странно и BROKEN страница перенаправителя javascript, либо вы ее не показываетеполный html основного или основного URL никого не перенаправляет, он не помещает javascript перенаправления в тег <script>, и, следовательно, браузер не будет использовать его для перенаправления куда-либо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...