Я пытался перейти по связанным ссылкам, но не добился успеха.Я получаю "Сканированные 0 страниц" с моим сценарием scrapy (совершенно новый для scrapy).
Я пытаюсь сканировать серию страниц, которые выглядят так: есть раздел:
<div id="index">
<h2>Find Listings </h2>
<div class="group">
<h3>A</h3>
<ul>
<li><a href="/STATE-City/Segment-number-one">Segment-number-one</a></li>
<li><a href="/STATE-City/Segment-number-two">Segment-number-two</a></li>
<li><a href="/STATE-City/Segment-number-three">Segment-number-three</a></li>
И так далее ...
При переходе по ссылкам на следующем уровне появляются данные, которые я хочу проанализировать.Когда я анализирую страницу напрямую, она извлекает нужные мне данные.Однако я не получаю скрипт для перехода по каждой из приведенных выше ссылок.
Мой текущий скрипт:
class MySpider(CrawlSpider):
name = "domain"
allowed_domains = ["domain.com"]
start_urls = ['http://URL/STATE-City1',
'http://URL/STATE-City2']
rules = (Rule(LinkExtractor(allow=r"/STATE-\w+/*?$"), callback='parse_contents'),)
def parse_contents(self, response):
for bus in response.css('div.resultWrapper'):
yield {
'field1': bus.css('div.resultInner a::text').extract_first(),
'field2': bus.css('p.field2::text').extract_first(),
'field3': bus.css('span.field3::text').extract_first(),
'field4': bus.css('span.field4::text').extract(),
'field5' : bus.css('span.field5::text').extract(),
}
Спасибо за любую помощь.
BCBB