Безопасное удаление детей в теге с помощью Beautifulsoup - PullRequest
1 голос
/ 15 января 2020

Предположим, что теперь у меня есть тег div, полученный с помощью findAll в супе.

div = <div>text1<span>text2<\span>text3</div>

Обратите внимание, что есть внешние структуры, которые я хочу сохранить. Например, div.previous_element будет подключаться к другим тегам в супе. Теперь я развернул диапазон так, что

div.contents=['text1','text2','text3']

Что я хочу:

  1. div.contents = ['text1text2text3']
  2. div.string не равно none.
  3. соединение с супом не установлено (div.previous_element также работает)

1 Ответ

0 голосов
/ 16 января 2020

Попробуйте это.

from simplified_scrapy.simplified_doc import SimplifiedDoc
html='''<div>text1<span>text2<\span>text3</div>'''
doc = SimplifiedDoc(html)
div = doc.div
print (div)
print (div.text)

Результат:

{'tag': 'div', 'html': 'text1<span>text2<\\span>text3'}
text1text2text3

Вы можете получить примеры SimplifiedDo c здесь

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...