Question

Я пытаюсь очистить некоторый текст с веб-сайта под многими тегами span, но не получаю чистый текст, любая помощь будет принята!

Вот URL:

https://www.example.com

Это то, что я пытаюсь

response.xpath('//div[@class="agency-header__address"]').extract_first()

ожидаемый результат:

Level 18, 25 Bligh Street, SYDNEY, NSW 2000

JaSON · Answer 1 · 08 февраля 2019

Вы можете получить необходимый текст, извлекая строковое представление из div:

response.xpath('string(//div[@class="agency-header__address"])').extract_first()

Hellohowdododo · Answer 2 · 10 февраля 2019

Есть одна полезная библиотека для этой задачи (от создателей Scrapy), вы должны попробовать: https://github.com/TeamHG-Memex/html-text

import html_text
i_need_text=response.xpath('//div[@class="agency-header__address"]').extract_first()
html_text.extract_text(i_need_text)

Out [4]: 'Уровень 18, 25 Bligh Street, СИДНЕЙ,NSW 2000 '

malberts · Answer 3 · 08 февраля 2019

Вам нужно взять xpath text() для всего, что находится внутри вашего данного xpath.Например:

result = response.xpath('//div[@class="agency-header__address"]//text()').extract()

Это будет возвращать несколько span элементов, поэтому вы должны использовать extract().Затем вы можете присоединиться и очистить его так, как вы хотите, например:

''.join(result).replace('\xa0', ' ')

Scrapy не получает чистый текст с помощью extract_first ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Scrapy не получает чистый текст с помощью extract_first ()

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов