Я конвертирую html данные с Beautifulsoup, собираю весь текст в теги 'p' и преобразую его в строку. Я сделал это, используя:
source = BeautifulSoup(response.text, "html.parser")
content = ""
for section in source.findAll('p'):
content += section.get_text()
Однако, когда я конвертирую его, теги, подобные упомянутым, разбросаны по всей строке. Я пробовал несколько способов удалить все эти символы из строк, которые я использую, например:
unicodedata.normalize('NFKC', text)
content = u" ".join(content.split())
text.strip(), text.rstrip()
Есть ли библиотека, которая может удалить эти теги из строки. Некоторые из этих методов решают некоторые проблемы, но большинство из них все еще остаются.
Редактировать: Вот пример строки: https://pastebin.com/2DGECKXa