получение исходного кода веб-страницы без фактического доступа к странице - PullRequest
1 голос
/ 25 апреля 2011

Есть много веб-страниц, которые просто запускают сценарий без какого-либо материала на них.Есть ли способ увидеть источник страницы без фактического посещения страницы, потому что он просто перенаправляет вас?

Сработает ли для этого использование парсера html?Я использую simpleHTMLdom для разбора страницы?

Ответы [ 7 ]

4 голосов
/ 25 апреля 2011

В Firefox вы можете использовать протокол view-source для просмотра только исходного кода сайта без его фактического рендеринга или выполнения на нем JavaScripts.

Пример: view-source: http://stackoverflow.com/q/5781021/298479 (скопировать его вадресная строка)

1 голос
/ 25 апреля 2011

Если вам нужно быстрое и грязное исправление, вы можете отключить JavaScript и мета-перенаправления (Internet Explorer может отключить их в диалоговом окне «Свойства обозревателя». Firefox может использовать надстройку NoScript для того же эффекта.)

Это не приведет к перенаправлениям на стороне сервера, но предотвратит перенаправления на стороне клиента и позволит увидеть исходный HTML-код документа.

1 голос
/ 25 апреля 2011

Да, простой анализ HTML даст вам код на стороне клиента (Javascript).

Когда к этим страницам обращаются через браузер, браузер запускает код и перенаправляет его, но когда вы обращаетесь к нему с помощью скребка или вашей собственной программы, код не запускается и может быть получен статический скрипт.

Конечно, вы не можете получить доступ к серверной части (php). Это невозможно.

0 голосов
/ 25 апреля 2011

Если вы пытаетесь выполнить HTML-очистку содержимого страницы, которая составляет более 90% + ее содержимого / представления, посредством выполнения JavaScript, вы столкнетесь с проблемами, если только вы не рендерите на экран (скрытый), а затем очищаете его.В противном случае вы в конечном итоге удалите несколько тегов сценария, которые вам мало что дадут.

Например, если я попытаюсь очистить страницу входящих сообщений Gmail, это будет пустая страница HTML с несколькими разбросанными тегами сценария (вероятно, это типично).почти всех приложений на основе GWT)

Имеет ли страница / сайт, которые вы просматриваете, API?Если нет, стоит ли спрашивать их, есть ли у них один в работе?

Как правило, эти типы инструментов проходят по тонкой грани между «кражей» информации и «обменом» информацией, поэтому вам, возможно, придется действовать осторожно.

0 голосов
/ 25 апреля 2011

wget или lynx также будут хорошо работать, если у вас есть доступ к командной строке linux:

wget http://myurl lynx -dump http://myurl

0 голосов
/ 25 апреля 2011

Если вы используете операционную систему * nix, попробуйте использовать curl с терминала.

curl http://www.google.com

0 голосов
/ 25 апреля 2011

Единственный способ получить исходный HTML-код страницы - отправить HTTP-запрос на веб-сервер и получить ответ, равный посещению страницы.

...