PageSource показывает только HTML-теги, используя phantomjs - PullRequest
0 голосов
/ 13 мая 2019

Я хочу очистить один сайт с помощью PHP, но когда я захожу на этот сайт и пытаюсь получить исходный код страницы, я получаю эту ошибку:

<html><title>You are being redirected...</title>
<noscript>Javascript is required. Please enable javascript before you are allowed to see this page.</noscript>

Из-за этого я пытаюсь получить исходный код страницы, используя фантом js:

var page = require('webpage').create();

page.open('https://www.mywebsite.com/', function(){
    console.log(page.content);
    phantom.exit();
});

Но используя фантомы, я получил в результате:

<html><head></head><body></body></html>

Я ошибся, используя фантомы? Или этот сайт не может быть отменен?

Каким образом я могу попытаться получить данные со страницы?

1 Ответ

0 голосов
/ 14 мая 2019

На сайте есть перенаправление javascript, но скрипт попытался захватить HTML до завершения перенаправления и ничего не получил.Нужно подождать некоторое время - страница будет построена или захватит контент после события onLoadFinished, как это.Попробуйте с кодом ниже, это должно работать.

var page = require("webpage").create();
var homePage = "https://www.[real site name].com/";
page.settings.userAgent = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.2062'

page.open(homePage, function(status) {
    page.onLoadFinished = function(status){
        console.log(page.content);
        phantom.exit();
    };
});
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...