Question

Я пытаюсь собрать информацию с этого сайта https://www.gumtree.co.za,, однако я не уверен, как получить URL-адрес свойства.

Вот что у меня есть:

class GumtreeSpider(scrapy.Spider):
    name = "gumtree"
    start_urls = ['https://www.gumtree.co.za/s-house-rentals-flat-rentals-offered/cape-town/v1c9071l3100006p1',
                  'https://www.gumtree.co.za/s-houses-flats-for-sale/cape-town/v1c9074l3100006p1']

    def parse(self, response):

        for prop in response.css('div.tileV1'):
            link = 'https://www.gumtree.co.za' + prop.css('div.title  a.tile-title-text::attr(href)').get()

Я пробовал несколько комбинаций, но я не могу понять, как это правильно. Какие-либо предложения? Спасибо!

Guillaume · Answer 1 · 07 октября 2019

Что вы пытаетесь скрести именно на странице? Список объявлений в карусели вверху?

Если да, вам нужно посмотреть на запросы Javascript XHR, они загружаются динамически, поэтому вам нужно проверить различные запросы, чтобы найти то, что вы хотите.

Невозможно объединить объекты 'str' и 'NoneType' с помощью Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Невозможно объединить объекты 'str' и 'NoneType' с помощью Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы