Как сканировать блог WordPress? - PullRequest
1 голос
/ 27 февраля 2011

Я пишу программу для сканирования блогов.Это работает хорошо, пока это не встречает этот блог: www.ipujia.com.Я отправляю HTTP-запрос:

GET <a href="http://www.ipujia.com/" rel="nofollow">http://www.ipujia.com/</a> HTTP/1.0

на сайт и получаю следующий ответ:

HTTP/1.1 301 Moved Permanently
Date: Sun, 27 Feb 2011 13:15:26 GMT
Server: Apache/2.2.16 (Unix) mod_ssl/2.2.16 OpenSSL/0.9.8e-fips-rhel5
mod_auth_passthrough/2.1 mod_bwlimited/1.4 FrontPage/5.0.2.2635 mod_perl/2.0.4 
Perl/v5.8.8
X-Powered-By: PHP/5.2.14
Expires: Wed, 11 Jan 1984 05:00:00 GMT
Cache-Control: no-cache, must-revalidate, max-age=0
Pragma: no-cache
Last-Modified: Sun, 27 Feb 2011 13:15:27 GMT
Location: http://http/www.ipujia.com/
Content-Length: 0
Connection: close
Content-Type: text/html; charset=UTF-8

Это странно, потому что я не могу получить страницу индексаследуя за местоположением.У кого-нибудь есть идеи?

1 Ответ

0 голосов
/ 27 февраля 2011

Поле Location в ответе содержит неверный URI.

Location: http://http/www.ipujia.com/ (обратите внимание на ошибку протокола) Должно быть

Location: http://www.ipujia.com/

Если вы не контролируете сервер, здесь мало что можно сделать.

Чтобы решить его, не могли бы вы проанализировать ответ "Location" и попытаться извлечь из него действительный URI?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...