Извлечь конкретное значение из HTML, используя scrapy и css - PullRequest
0 голосов
/ 13 февраля 2019

У меня есть следующий HTML-код:

<div class="sites-split">
    <ul>
        <li><a href="http://www.page1.com/" target="_blank">text 1</a></li>
        <li><a href="http://www.page2.com/" target="_blank">text 2</a></li>
    </ul>
    <ul>
        <li><a href="http://www.page3.com/" target="_blank">text 3</a></li>
        <li><a href="http://www.page4.com/" target="_blank">text 4</a></li>
    </ul>
</div>

Я хочу извлечь ссылки и текст, связанный с этой ссылкой, мне удается получить ссылки, выполнив:

response.css("div.sites-split a::attr(href)").getall()

Но я не знаю, как получить текст, я пытался:

response.css("div.sites-split a::attr(target)").getall()

Но все, что я получаю, это:

['_blank',
 '_blank',
 '_blank',
 '_blank']

1 Ответ

0 голосов
/ 13 февраля 2019

Вы извлекаете другой атрибут, но вам нужен текст.Попробуйте response.css("div.sites-split a::text").getall()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...