G.ijsco 31 января 2020 0

Удаление всего содержимого в скобках {} в выводе BeautifulSoup

G.ijsco / 31 января 2020

Я бы хотел разобрать текстовую форму html страниц. Некоторые страницы возвращают текст, но также текст и символы между {}, которые я не хочу.

Я пытался:

import re
from bs4 import BeautifulSoup

art = soup.find_all('p')
for clean in art: 
    x = clean.text.encode('ascii', 'ignore').decode('ascii')
    x = re.sub("([{]).*?([}])", "\g<1>\g<2>", x)
    print(x.strip())

Но без сигары ...

...