Сканирование сайта с использованием PHP - PullRequest
0 голосов
/ 08 марта 2011

Я пробовал несколько методов для сканирования этого URL (см. Ниже), и по какой-то причине заголовок возвращается неверно. Если я смотрю на источник страницы с помощью firebug, я вижу правильный заголовок, однако, если я просматриваю исходный код страницы, он будет другим.

Используя несколько техник php, я получаю одинаковый результат. Digg может сканировать страницу и анализировать правильный заголовок.

Вот ссылка: http://lifehacker.com/#!5772420/how-to-make-ios-more-like-android

Правильный заголовок «Как сделать ваш iPhone (или другое устройство iOS) более похожим на Android» Проанализированный заголовок «Lifehacker, советы и загрузка для достижения цели»

Это нормально? Как они это делают? Есть ли способ получить правильный заголовок?

Ответы [ 2 ]

1 голос
/ 08 марта 2011

Это потому, что когда вы запрашиваете его с помощью PHP (без какой-либо поддержки JS), вы получаете главную страницу lifehacker - lifehacker.com.

Lifehacker недавно переключил свою CMS, так что все запросы переходят на начальную страницу, а затем все после хеш-бэнга читается JS-скриптом на главной странице, чтобы выяснить, какую страницу нужно обслуживать. Вам нужно изменить свою программу, чтобы учесть это

EDIT Посмотри на эти ссылки

http://code.google.com/web/ajaxcrawling/docs/getting-started.html

http://www.tbray.org/ongoing/When/201x/2011/02/09/Hash-Blecch

0 голосов
/ 09 марта 2011
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...