Question

Я пытаюсь получить содержимое внутри div и метатега веб-сайта, используя метод .get_text () после метода find_all, как показано ниже:

from bs4 import BeautifulSoup as soup
#skipped some lines
names = bs_obj.find_all("div", {'class':'classname'})
for name in names:
    print(name.get_text()+"\n")

Допустим, содержимое тегов divявляются

<div class="classname">content1</div>
<div class="classname">content2</div>

Мой ожидаемый результат -

content1
content2

Однако фактический результат равен

<div class="classname">content1</div>
<div class="classname">content2</div>

Я пробовал некоторые методы, такие как split(), replace(), re.search() но теги не исчезнут.Есть идеи, что происходит?

sentence · Answer 1 · 02 марта 2019

Вы почти получили результат:

html_doc = """ 
<div class="classname">content1</div> 
<div class="classname">content2</div> 
""" 
from bs4 import BeautifulSoup as soup
bs_obj = soup(html_doc, 'html.parser')

names = bs_obj.findAll('div', {'class':'classname'})

for name in names:
    print(name.text)

Невозможно получить содержимое div и метатега с помощью BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Невозможно получить содержимое div и метатега с помощью BeautifulSoup

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов