Как пропустить элемент ребенка с помощью Scrapy - PullRequest
0 голосов
/ 01 июля 2019

Я хочу почистить только описание работы на этой странице: https://www.aha.io/company/careers/current-openings/customer_success_specialist_project_management_us

Я бы хотел получить весь текст и HTML внутри div с классом "container py2 content job", КРОМЕкнопка.Он находится в теге <a> с классом "btn btn-large btn-secondary".

. У меня есть два разных селектора xpath, которые, как я думал, должны работать, но не работают.Первое не исключает кнопку, а второе избавляет от всего другого HTML, который я хотел бы сохранить.тег.Я надеюсь, что есть что-то простое, что мне не хватает, но я не могу найти то, что я ищу в документации.

1 Ответ

1 голос
/ 01 июля 2019
job_html = response.css('div.content *').extract()
job_html = [x for x in job_html if "Apply now" not in x]
print(job_html)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...