Почему игнорируется текст внутри внутреннего тега, как это исправить? - PullRequest
0 голосов
/ 20 июня 2020
<p>The latest media Tweets from Yohir Akerman (@yohirakerman). My bio changes all the time. /// akermancolumnista<strong>@gmail.com</strong>. Airplane</p>

Я пытаюсь извлечь весь текст следующим образом:

    body = response.xpath('//*[@id="b_results"]/p/text()").getall()
    print(body)

Результат, который я получаю:

['The latest media Tweets from Yohir Akerman (@yohirakerman). My bio changes '
 'all the time. /// akermancolumnista',
 '. Airplane']

Весь текст в теге <strong> игнорировать, как исправить?

1 Ответ

1 голос
/ 20 июня 2020

Не используйте text() . Внутри

body = response.xpath('//*[@id="b_results"]/p").getall()
    print(body)

Затем соедините тело и очистите тело от всех тегов.

...