Это с помощью Scrapy.
Я сталкиваюсь со следующим типом разметки:
<p>Noting the presence of a footnote<sup>1</sup> is one common way for superscripts to be used.</p>
Тестовая страница:
https://html.com/tags/sup/
Тестовый запрос:
response.css('div.render p::text')[0].extract()
Test ItemLoader:
loader.add_css("text", "div.render p::text")
Результаты испытаний:
отмечая наличие сноски
Ожидается тест:
Отмечать наличие сноски - один из распространенных способов использования надстрочных знаков.
Вопрос:
Как получить полный текст абзаца, игнорируя дочерний тег?