Question

Я новичок, пытающийся выполнить эту простую задачу, используя Scrapy, но безуспешно. Я прошу вашего совета о том, как сделать это с помощью Scrapy или с помощью любого другого инструмента (с Python). Спасибо.

Я хочу

начать со страницы, на которой перечислены биографии адвокатов, чья фамилия начинается с A: initial_url = www.example.com/Attorneys/List.aspx?LastName=A
From LastName = A для извлечения ссылок на актуальную биографию: / BioLinks /
посетите каждый из / BioLinks /, чтобы получить информацию о школе для каждого адвоката.

Я могу извлечь информацию о / BioLinks / и School, но не могу перейти от исходного URL к страницам биографии.

Если вы считаете, что это неправильный путь, то как бы вы достигли этой цели?

Большое спасибо.

twneale · Answer 1 · 28 ноября 2009

Не уверен, что я полностью понимаю, о чем вы спрашиваете, но, возможно, вам нужно получить абсолютный URL для каждой биографии и получить исходный код для этой страницы:

import urllib2
bio_page = urllib.urlopen(bio_url).read()

Затем используйте регулярные выражения или другой синтаксический анализ, чтобы получить адвокатскую школу адвоката.

Простой вопрос о пауке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Простой вопрос о пауке

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов