Я пытаюсь собрать информацию с этого сайта https://www.gumtree.co.za,, однако я не уверен, как получить URL-адрес свойства.
Вот что у меня есть:
class GumtreeSpider(scrapy.Spider): name = "gumtree" start_urls = ['https://www.gumtree.co.za/s-house-rentals-flat-rentals-offered/cape-town/v1c9071l3100006p1', 'https://www.gumtree.co.za/s-houses-flats-for-sale/cape-town/v1c9074l3100006p1'] def parse(self, response): for prop in response.css('div.tileV1'): link = 'https://www.gumtree.co.za' + prop.css('div.title a.tile-title-text::attr(href)').get()
Я пробовал несколько комбинаций, но я не могу понять, как это правильно. Какие-либо предложения? Спасибо!
Что вы пытаетесь скрести именно на странице? Список объявлений в карусели вверху?
Если да, вам нужно посмотреть на запросы Javascript XHR, они загружаются динамически, поэтому вам нужно проверить различные запросы, чтобы найти то, что вы хотите.