Scrapy.selector не импортирует HtmlXPathSelector - PullRequest
0 голосов
/ 20 апреля 2020

Что я пишу неправильно в части text_2?

Каким-то образом Scrapy.selector не используется ...

Система просит меня написать больше, потому что я написал к большому количеству кода .. # для достижения полноты ...

from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractor
from scrapy.selector import HtmlXPathSelector

class SpiderSpider(CrawlSpider):
    name = 'spider'
    allowed_domains = ['www.tagesschau.de']
    start_urls = ['http://www.tagesschau.de/']
    base_url = ['http://www.tagesschau.de/']

    rules = (Rule(LinkExtractor(allow=('investigativ'), deny=('magnifier'),), callback='parse_article', follow=True),)

    def parse_article(self, response):
        complete_article = response.xpath('//div[@class="storywrapper"]')

        for article in complete_article:
            dachzeile = article.xpath('.//div[@class="meldungHead"]/h1/span[@class="dachzeile"]/text()').get()
            headline = article.xpath('.//div[@class="meldungHead"]/h1/span[@class="headline"]/text()').get()
            date = article.xpath('//meta[@name="date"]/@content').get()
            datum = date.split("T")[0]
            uhrzeit = date.split("T")[1]
            ueberschrift = article.xpath('.//div[@class="mod modA modParagraph"]/p/strong/text()').get()
            #text = article.xpath('//div[@class="storywrapper"]//p[@class="text small"]/text()').get()
            text_2 = "".join([s.strip().encode('utf-8') for s in response.selector.xpath('//div[@class="storywrapper"]//p[@class="text small"]/text()').extract()])
            #relative_image = article.xpath('//div[@class="media mediaA"]/img/@src').get()
            #final_image = self.base_url + relative_image
            url = response.url.encode('utf-8')

            yield {
                'Überschrift': dachzeile,
                'Titel': headline,
                'Datum': datum,
                'Uhrzeit': uhrzeit,
                'Einleitung': ueberschrift,
                #'Text': text,
                'Text 2': text_2,
                #'Bild': final_image,
                'Link': url,
            }
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...