Question

Я хочу почистить только описание работы на этой странице: https://www.aha.io/company/careers/current-openings/customer_success_specialist_project_management_us

Я бы хотел получить весь текст и HTML внутри div с классом "container py2 content job", КРОМЕкнопка.Он находится в теге <a> с классом "btn btn-large btn-secondary".

. У меня есть два разных селектора xpath, которые, как я думал, должны работать, но не работают.Первое не исключает кнопку, а второе избавляет от всего другого HTML, который я хотел бы сохранить.тег.Я надеюсь, что есть что-то простое, что мне не хватает, но я не могу найти то, что я ищу в документации.

ThePyGuy · Answer 1 · 01 июля 2019

job_html = response.css('div.content *').extract()
job_html = [x for x in job_html if "Apply now" not in x]
print(job_html)

Как пропустить элемент ребенка с помощью Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как пропустить элемент ребенка с помощью Scrapy

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов