Красивый суп - извлеките все заголовки, параграфы впоследствии - PullRequest
0 голосов
/ 07 мая 2018

Я хочу не только содержимое страницы, но и форматирование, связанное с каждым заголовком в моем итоговом документе, а не просто текст без выделения заголовков. например форматирование всех заголовков жирным шрифтом.

На данный момент я извлекаю только текст моего содержимого div, объединяющий все заголовки и абзацы:

soup = BeautifulSoup(page.content, 'html.parser')


t=soup.find_all('div',class_=['x'])

    df=[]
    for i in t:
        for head in i:
            df.append(i.get_text())

Теперь мне нужно, чтобы текст был извлечен из заголовка, а затем из следующего абзаца, чтобы я мог отформатировать заголовки. Так что я бы перебрал все заголовки, извлек заголовок и затем текст абзаца ....

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...