Question

Я недавно начал работать со Scrapy. Я пытаюсь собрать некоторую информацию из большого списка, который разделен на несколько страниц (около 50). Я могу легко извлечь то, что я хочу, с первой страницы, включая первую страницу в списке start_urls. Однако я не хочу добавлять все ссылки на эти 50 страниц в этот список. Мне нужен более динамичный способ. Кто-нибудь знает, как я могу многократно очищать веб-страницы? У кого-нибудь есть примеры этого?

Спасибо! * * 1004

Alex · Answer 1 · 09 февраля 2011

используйте urllib2 для загрузки страницы. Затем используйте re (регулярные выражения) или BeautifulSoup (анализатор HTML), чтобы найти ссылку на следующую страницу, которая вам нужна. Загрузите это с помощью urllib2. Промыть и повторить.

Scapy - это здорово, но тебе не нужно делать то, что ты пытаешься сделать

Jeffrey Greenham · Answer 2 · 03 февраля 2011

Почему вы не хотите добавить все ссылки на 50 страниц? Являются ли URL-адреса последовательных страниц такими, как www.site.com/page=1, www.site.com/page=2 или все они различны? Можете ли вы показать мне код, который у вас есть сейчас?

Рекурсивное использование Scrapy для удаления веб-страниц с веб-сайта.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Рекурсивное использование Scrapy для удаления веб-страниц с веб-сайта.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов