Как удалить определенную информацию из функции webscraping (Beautiful Soup): - PullRequest
1 голос
/ 05 марта 2020

Я использую BeautifulSoup для чистки с этого сайта. https://lawyers.justia.com/lawyer/michael-paul-ehline-85006

Я не хочу, чтобы в моем выводе были рекламные списки:

Мой код:

for o in soup.findAll('div', attrs={"class": "block-wrapper"}): 
    for de in o.findAll("li"):
        if de != []:
            de=remove_tags(str(de))
            print (de)

Вывод в python: ВЫХОДНОЕ ИЗОБРАЖЕНИЕ

1 Ответ

0 голосов
/ 05 марта 2020

Вы можете удалить что-то на странице HTML. После того, как вы найдете с помощью findAll ('div', attrs = {"class": "primary-sidebar-wrapper"}) нужный вам элемент. Вы можете сделать следующее:

tag = soup.findAll('div', attrs={"class": "block-wrapper"})
tag[0].replace_with("")

Это также заменит текст HTML в переменной супе

...