HTML данные поступают из API, и мне нужно манипулировать только текстовой частью и отменить метки html et c. Манипулирование текстом будет выполняться в другом API, поэтому после обработки текст html необходимо будет извлечь и вставить обратно в DOM. В приведенном ниже примере текст был обработан заглавными буквами для манипуляций, что является неправильным, поскольку текст никак не может быть вставлен обратно в DOM в исходном порядке.
import urllib
from bs4 import BeautifulSoup
url = "https://www.python.org"
html = urllib.request.urlopen(url).read()
soup = BeautifulSoup(html)
# remove all script and style elements
for script in soup(["script", "style"]):
script.extract() # rip it out
# get text
text = soup.get_text()
text.upper()