Я новичок в Xpath, пытаюсь отсканировать веб-сайт в следующем формате:
<div class="top">
<a> tittle_name </a>
<div class="middle"> listed_date </div>
<div class="middle"> listed_value </div>
</div>
<div class="top">
<a> tittle_name </a>
<div class="middle"> listed_date </div>
</div>
<div class="top">
<a> tittle_name </a>
<div class="middle"> listed_value </div>
</div>
Присутствие list_value и selected_date не является обязательным.
Мне нужно сгруппировать каждое имя tittle_name с соответствующей перечисленной даты, named_value (если доступно), затем вставьте запись о достижении в MySQL.
Я использую scrapy shell , который дает несколько основных примеров, таких как
listings = hxs.select('//div[@class=\'top\']')
for listing in listings:
tittle_name = listing.select('/a//text()').extract()
date_values = listing.select('//div[@class=\'middle\']')
Приведенный выше код дает мне список tittle_name и список доступных named_date, selected_value, , но как их сопоставить ?(мы не можем перейти по индексу, потому что формат не является симметричным).
Спасибо.