Question

Привет, я действительно новичок в скрапе. Я попробовал базовый код, но это один из уникальных способов, и я попробовал другой подход здесь. Как я могу получить количество лайков, любви и информативности здесь https://teslamotorsclub.com/tmc/threads/tesla-tsla-the-investment-world-the-2019-investors-roundtable.139047/

вот мой код

<ul class="dark_postrating_outputlist">
<li>
<i class="fa fa-info-circle"></i> Informative x <strong>1</strong>
</li>
<li>
<i class="fa fa-thumbs-o-up"></i> Like x <strong>1</strong>
</li>
</ul>

Я хотел получить конкретный предмет внутри Я попробовал это

response.css('ul.dark_postrating_outputlist i.fa.fa-thumbs-o-up strong::text').extract_first()

Но это не работает, есть идеи, пожалуйста? спасибо

Gallaecio · Answer 1 · 22 апреля 2019

Используйте XPath вместо CSS:

response.xpath('//ul[@class="dark_postrating_outputlist"]/li[//i[contains()"fa-thumbs-o-up"]]/strong/text()').get()

SIM · Answer 2 · 22 апреля 2019

Попробуйте следующее, чтобы получить необходимый контент:

import scrapy

class TeslamotorsclubSpider(scrapy.Spider):
    name = "teslamotorsclub"
    start_urls = ["https://teslamotorsclub.com/tmc/threads/tesla-tsla-the-investment-world-the-2019-investors-roundtable.139047/"]

    def parse(self, response):
        for item in response.css("[id^='fc-post-']"):
            author = item.css(".author::text").get()
            like = item.css(".fa-thumbs-o-up + strong::text").get()
            love = item.css(".fa-heart-o + strong::text").get()
            informative = item.css(".fa-info-circle + strong::text").get()
            yield {"author":author,"like":like,"love":love,"informative":informative}

Частичный вывод:

{'author': 'Unpilot', 'like': '1', 'love': '4', 'informative': '1'}
{'author': 'UnknownSoldier', 'like': '7', 'love': '2', 'informative': '1'}
{'author': 'SpaceCash', 'like': '2', 'love': '15', 'informative': '2'}
{'author': 'gene', 'like': '45', 'love': '18', 'informative': '1'}
{'author': 'engle', 'like': '31', 'love': '5', 'informative': '15'}
{'author': 'Unpilot', 'like': '11', 'love': '3', 'informative': None}
{'author': 'SebastianR', 'like': '3', 'love': None, 'informative': None}
{'author': 'Buckminster', 'like': '1', 'love': '4', 'informative': None}

vezunchik · Answer 3 · 22 апреля 2019

Вы можете добавить более конкретный селектор для разделения «лайков» и «информативных» данных.Проверьте этот пример:

>>> txt = """<ul class="dark_postrating_outputlist">
...  <li>
...  <i class="fa fa-info-circle"></i> Informative x <strong>1</strong>
...  </li>
...  <li> 
...  <i class="fa fa-thumbs-o-up"></i> Like x <strong>2</strong>
...  </li>
...  </ul>"""
>>> from scrapy import Selector
>>> sel = Selector(text=txt)
>>> sel.css('ul.dark_postrating_outputlist li:contains("Informative") strong::text').get()
u'1'
>>> sel.css('ul.dark_postrating_outputlist li:contains("Like") strong::text').get()
u'2'

Здесь вы можете получить свои номера отдельно.

Как очистить элемент без ссылки или атрибута имени?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как очистить элемент без ссылки или атрибута имени?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы