Question

Я хочу удалить имя докладчика по этой ссылке: https://websummit.com/speakers

Имя в основном в теге div с class = "speaker__content__inner"

Я сделал в пауке паука, чей код ниже

import scrapy

class Id01Spider(scrapy.Spider):
    name = 'ID01'
    allowed_domains = ['websummit.com']
    start_urls = ['https://websummit.com/speakers']

    def parse(self, response):
        name=response.xpath('//div[@class = "speaker__content__inner"]/text()').extract()
        for Speaker_Details in zip(name):
            yield {'Speaker_Details': Speaker_Details.strip()}
        pass

Когда я запускаю этого паука, он запускается и ничего не возвращает. Журнальный файл: https://pastebin.com/JEfL2GBu

P.S .: Это мой первый вопрос о стековом потоке, поэтому, пожалуйста, исправьте мои ошибки, если я их допустил во время запроса.

gangabass · Answer 1 · 07 июня 2019

Если вы проверите исходный HTML (используя Ctrl+U), вы обнаружите, что внутри HTML нет информации о динамиках.Этот контент загружается динамически с использованием Javascript.

Вам необходимо вызвать https://api.cilabs.com/conferences/ws19/lists/speakers?per_page=25 и проанализировать JSON.

Я хочу выбрать тег div с определенным классом. Но мой паук ничего не возвращает, когда я запускаю его?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Я хочу выбрать тег div с определенным классом. Но мой паук ничего не возвращает, когда я запускаю его?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы