Рекурсивное использование Scrapy для удаления веб-страниц с веб-сайта. - PullRequest
1 голос
/ 02 февраля 2011

Я недавно начал работать со Scrapy. Я пытаюсь собрать некоторую информацию из большого списка, который разделен на несколько страниц (около 50). Я могу легко извлечь то, что я хочу, с первой страницы, включая первую страницу в списке start_urls. Однако я не хочу добавлять все ссылки на эти 50 страниц в этот список. Мне нужен более динамичный способ. Кто-нибудь знает, как я могу многократно очищать веб-страницы? У кого-нибудь есть примеры этого?

Спасибо! * * 1004

Ответы [ 2 ]

1 голос
/ 09 февраля 2011

используйте urllib2 для загрузки страницы. Затем используйте re (регулярные выражения) или BeautifulSoup (анализатор HTML), чтобы найти ссылку на следующую страницу, которая вам нужна. Загрузите это с помощью urllib2. Промыть и повторить.

Scapy - это здорово, но тебе не нужно делать то, что ты пытаешься сделать

0 голосов
/ 03 февраля 2011

Почему вы не хотите добавить все ссылки на 50 страниц? Являются ли URL-адреса последовательных страниц такими, как www.site.com/page=1, www.site.com/page=2 или все они различны? Можете ли вы показать мне код, который у вас есть сейчас?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...