Scrapy Spider неизвестный выход - PullRequest
0 голосов
/ 25 марта 2020

Я новичок в Scrapy (в общем, вебскриптинг), для школьного проекта я пытаюсь собрать названия должностей с определенного веб-сайта. Я использую оболочку scrapy, это мой запрос:


In [19]: job = response.xpath("//article/div/a/text()")

In [20]: job.getall()

this это результат, который я получил:

['\r\n                ',
 '\r\n            ',
 '\r\n                ',
 '\r\n            ']

как для HTML:

<article id="644613" class="media well listing-item listing-item__jobs  ">

        </div>
        <div class="media-body">
        <div class="media-heading listing-item__title">
            <a href="https://www.tanitjobs.com/job/644613/ingénieur-net/?backPage=&amp;searchID=1585105963.7756" class="link">
            Ingénieur .NET

            </a>
        </div>
</article>

1 Ответ

0 голосов
/ 25 марта 2020

Попробуйте:

jobs = response.css("article.listing-item div.listing-item__title a::text").getall()

Подробнее о селекторах можно прочитать здесь: https://docs.scrapy.org/en/latest/topics/selectors.html

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...