Question

Как получить текст для d2 и d3 в следующем случае:

import bs4

htmldoc = '''<html>
<div class="a">
    <div class="b">abc def1</div>
    <div class="c">123</div>
</div>
<div class="a">
    <div class="b">abc def<sup>2</sup></div>
    <div class="c">456</div>
</div>
<div class="a">
    <div class="b">abc <!-- -->def3</div>
    <div class="c">789</div>
</div>
</html>'''

soup = bs4.BeautifulSoup(htmldoc, 'html.parser')
d1 = soup.find('div', class_ = 'b', text = 'abc def1').findNext('div').text
print(d1)
d2 = soup.find('div', class_ = 'b', text = 'abc def2').findNext('div').text
print(d2)
d3 = soup.find('div', class_ = 'b', text = 'abc def3').findNext('div').text
print(d3)

Работает только для d1, но для d2 и d3 возникает ошибка ...

Jack Fleeting · Answer 1 · 18 марта 2019

Я могу что-то упустить, но делаю это:

d1 = soup.find_all('div', class_ = 'c')
for i in (d1):
   print(i.text)

Дает этот вывод:

123
456
789

Это то, что вы ищете?

Maaz · Answer 2 · 18 марта 2019

Это потому, что ваше правило соответствия с текстом не работает с текстом

Мое решение выглядит как обходной путь, но в любом случае, вы можете попробовать это.

Перед удалением неиспользуемых тегов и комментариев следует использовать методы unwrap и extract

import bs4

htmldoc = '''<html>
<div class="a">
    <div class="b">abc def1</div>
    <div class="c">123</div>
</div>
<div class="a">
    <div class="b">abc def<sup>2</sup></div>
    <div class="c">456</div>
</div>
<div class="a">
    <div class="b">abc <!-- -->def3</div>
    <div class="c">789</div>
</div>
</html>'''


def get_new_soup():
    soup = bs4.BeautifulSoup(htmldoc, 'html.parser')
    divs_b = soup.find_all('div',{'class','b'})
    for div in divs_b:
        # Remove unwanted tag (like <sup> here)
        if div.sup:
            div.sup.unwrap()
        # Remove comments
        for element in div(text=lambda text: isinstance(text, bs4.Comment)):
            element.extract()

    soup_str = str(soup)
    return(bs4.BeautifulSoup(soup_str,'html.parser'))

soup = get_new_soup()

d1 = soup.find('div', class_ = 'b', text = 'abc def1').findNext('div').text
print(d1)
d2 = soup.find('div', class_ = 'b', text = 'abc def2').findNext('div').text
print(d2)
d3 = soup.find('div', class_ = 'b', text = 'abc def3').findNext('div').text
print(d3)

ВЫВОД:

123
456
789

EDIT:

Как и просили в комментарии, я вижу только один способ получить ваши данные:

import bs4

htmldoc = '''<html>
<div class="a">
    <div class="b">abc def1</div>
    <div class="c">123</div>
</div>
<div class="a">
    <div class="b">abc def<sup>2</sup></div>
    <div class="c">456</div>
</div>
<div class="a">
    <div class="b">abc <!-- -->def3</div>
    <div class="c">789</div>
</div>
</html>'''


def get_new_soup():
    soup = bs4.BeautifulSoup(htmldoc, 'html.parser')
    divs_b = soup.find_all('div',{'class','b'})
    for div in divs_b:
        # Remove comments
        for element in div(text=lambda text: isinstance(text, bs4.Comment)):
            element.extract()

    soup_str = str(soup)
    return(bs4.BeautifulSoup(soup_str,'html.parser'))

soup = get_new_soup()

search_text = ['abc def1', 'abc def<sup>2</sup>', 'abc def3']

divs = soup.find_all('div', class_ = 'b')
for div in divs:
    content = ''.join(str(c) for c in div.contents)
    if content in search_text:
        print(div.findNext('div').text)

ВЫВОД:

123
456
789

Получить весь текст внутри одного тега, используя BeautifulSoup?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить весь текст внутри одного тега, используя BeautifulSoup?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов