Манипулирование текстом HTML, сохраняя оригинальные теги нетронутыми - PullRequest
1 голос
/ 05 марта 2020

HTML данные поступают из API, и мне нужно манипулировать только текстовой частью и отменить метки html et c. Манипулирование текстом будет выполняться в другом API, поэтому после обработки текст html необходимо будет извлечь и вставить обратно в DOM. В приведенном ниже примере текст был обработан заглавными буквами для манипуляций, что является неправильным, поскольку текст никак не может быть вставлен обратно в DOM в исходном порядке.

import urllib
from bs4 import BeautifulSoup

url = "https://www.python.org"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html)

# remove all script and style elements
for script in soup(["script", "style"]):
    script.extract()    # rip it out

# get text
text = soup.get_text()

text.upper()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...