Проверка детей на теги в Beautiful Soup 4 с питоном - PullRequest
1 голос
/ 29 июня 2019

Я использую BeautifulSoup 4 с python для анализа HTML-кода. Вот код:

from bs4 import BeautifulSoup as bs
html_doc = '<p class="line-spacing-double" align="center">IN <i>THE </i><b>DISTRICT</b> COURT OF {county} COUNTY\nSTATE OF OKLAHOMA</p>'

soup = bs(html_doc, 'html.parser')
para = soup.p

for child in soup.p.children:
    print (child)

Результат:

IN
<i>THE </i>
<b>DISTRICT</b>
 COURT OF {county} COUNTY
STATE OF OKLAHOMA

Это все имеет смысл. Я пытаюсь перебрать результаты, и если я найду <i> или <b>, сделаю с ними что-то другое. Когда я пробую следующее, это не работает:

for child in soup.p.children:
    if child.findChildren('i'):
        print('italics found')

Ошибка в том, что первый возвращенный дочерний элемент является строкой, и я пытаюсь найти в нем дочерний тег, а BS4 уже знает, что дочерних элементов нет.

Поэтому я изменил код, чтобы проверить, является ли дочерний элемент строкой, и, если это так, не пытаться предпринять какие-либо действия с ним, просто распечатать его.

for child in soup.p.children:
    if isinstance(child, str):
        print(child)
    elif child.findAll('i'):
        for tag in child.findAll('i'):
            print(tag)

Результат этого последнего кода:

IN
 COURT OF {county} COUNTY
STATE OF OKLAHOMA

Когда я перебираю результаты, мне нужно иметь возможность проверять теги в результате, но я не могу понять, как это сделать. Я думал, что это должно быть просто, но я в тупике.

EDIT:

В ответ на jacalvo:

Если я бегу

for child in soup.p.children:
    if child.find('i'):
        print(child)

По-прежнему не удается распечатать 2-ю и 3-ю строки из кода HTML

Edit:

for child in soup.p.children:
    if isinstance(child, str):
        print(child)
    else:
        print(child.findChildren('i', recursive=False))

Это привело к:

IN
[]
[]
 COURT OF {county} COUNTY
STATE OF OKLAHOMA

Ответы [ 3 ]

1 голос
/ 29 июня 2019

Это пример того, что вы пытаетесь сделать как пример "сделать что-то другое" с тегами?Пример полного желаемого результата в вопросе поможет:

from bs4 import BeautifulSoup as bs

html_doc = '<p class="line-spacing-double" align="center">IN <i>THE</i> <b>DISTRICT</b> COURT OF {county} COUNTY\nSTATE OF OKLAHOMA</p>'
soup = bs(html_doc, 'html.parser')
para = soup.p

for child in para.children:
    if child.name == 'i':
        print(f'*{child.text}*',end='')
    elif child.name == 'b':
        print(f'**{child.text}**',end='')
    else:
        print(child,end='')

Выход:

IN *THE* **DISTRICT** COURT OF {county} COUNTY
STATE OF OKLAHOMA
0 голосов
/ 29 июня 2019

Используйте findChildren (), а затем проверьте имя ребенка с условиями if.

from bs4 import BeautifulSoup as bs
html_doc = '<p class="line-spacing-double" align="center">IN <i>THE </i><b>DISTRICT</b> COURT OF {county} COUNTY\nSTATE OF OKLAHOMA</p>'

soup = bs(html_doc, 'html.parser')

for child in soup.find('p').findChildren(recursive=False) :
    if child.name=='i':
        print(child)
    if child.name=='b':
        print(child)

Выход:

<i>THE </i>
<b>DISTRICT</b>
0 голосов
/ 29 июня 2019
    from bs4 import BeautifulSoup as bs

    html_doc = '<p class="line-spacing-double" align="center">IN <i>THE </i><b>DISTRICT</b> COURT OF {county} ' \
               'COUNTY\nSTATE OF OKLAHOMA</p> '

    soup = bs(html_doc, 'html.parser')
    paragraph = soup.p

    # all tags dynamically gotten
    tags = [tag.name for tag in soup.find_all()]

    for child in paragraph.children:
        if child.name in tags:
            print('{0}'.format(child))  # or child.text
        else:
            print(child)

выход

    IN 
    <i>THE </i>
    <b>DISTRICT</b>
     COURT OF {county} COUNTY
    STATE OF OKLAHOMA
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...