Проверка ссылок (Spider Crawler) - PullRequest
2 голосов
/ 02 октября 2009

Я ищу средство проверки ссылок для паука моего веб-сайта и регистрации недействительных ссылок, проблема в том, что у меня есть страница входа в систему, которая требуется. То, что я хочу, - это средство проверки ссылок, которое запускает данные для входа в командную запись, а затем создает паук на остальной части веб-сайта.

Любые идеи, ребята, будут оценены.

Ответы [ 2 ]

3 голосов
/ 03 октября 2009

Я только недавно решил похожую проблему:

import urllib
import urllib2
import cookielib

login = 'user@host.com'
password = 'secret'

cookiejar = cookielib.CookieJar()
urlOpener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cookiejar))

# adjust this to match the form's field names
values = {'username': login, 'password': password}
data = urllib.urlencode(values)
request = urllib2.Request('http://target.of.POST-method', data)
url = urlOpener.open(request)
# from now on, we're authenticated and we can access the rest of the site
url = urlOpener.open('http://rest.of.user.area')
2 голосов
/ 02 октября 2009

Вы хотите взглянуть на модуль cookielib: http://docs.python.org/library/cookielib.html. Он реализует полную реализацию куки, которая позволит вам хранить данные для входа. Как только вы используете CookieJar, вам просто нужно получить данные для входа в систему от пользователя (скажем, из консоли) и отправить соответствующий запрос POST.

...