Простой вопрос о пауке - PullRequest
       18

Простой вопрос о пауке

0 голосов
/ 28 ноября 2009

Я новичок, пытающийся выполнить эту простую задачу, используя Scrapy, но безуспешно. Я прошу вашего совета о том, как сделать это с помощью Scrapy или с помощью любого другого инструмента (с Python). Спасибо.

Я хочу

  1. начать со страницы, на которой перечислены биографии адвокатов, чья фамилия начинается с A: initial_url = www.example.com/Attorneys/List.aspx?LastName=A

  2. From LastName = A для извлечения ссылок на актуальную биографию: / BioLinks /

  3. посетите каждый из / BioLinks /, чтобы получить информацию о школе для каждого адвоката.

Я могу извлечь информацию о / BioLinks / и School, но не могу перейти от исходного URL к страницам биографии.

Если вы считаете, что это неправильный путь, то как бы вы достигли этой цели?

Большое спасибо.

1 Ответ

0 голосов
/ 28 ноября 2009

Не уверен, что я полностью понимаю, о чем вы спрашиваете, но, возможно, вам нужно получить абсолютный URL для каждой биографии и получить исходный код для этой страницы:

import urllib2
bio_page = urllib.urlopen(bio_url).read()

Затем используйте регулярные выражения или другой синтаксический анализ, чтобы получить адвокатскую школу адвоката.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...