Я бы хотел разобрать текстовую форму html страниц. Некоторые страницы возвращают текст, но также текст и символы между {}
, которые я не хочу.
Я пытался:
import re
from bs4 import BeautifulSoup
art = soup.find_all('p')
for clean in art:
x = clean.text.encode('ascii', 'ignore').decode('ascii')
x = re.sub("([{]).*?([}])", "\g<1>\g<2>", x)
print(x.strip())
Но без сигары ...