Как разобрать оглавление из файла html, когда у каждого текстового файла есть свой начальный и конечный тег - PullRequest
0 голосов
/ 01 мая 2020

Я пытался проанализировать файл HTML, который содержит только оглавление, используя красивый суп. Файл HTML содержит текстовые данные оглавления с тегом SPAN, который начинается и заканчивается каждой строкой данных, представленных в таблице. У меня есть название главы, подтопа c номер 1, и подтема c номер 2 в качестве форматирования файла HTML. Я хочу получить такие данные, чтобы у меня было название отдельной главы и все ее подтемы. До сих пор я пытался добавить тег главы, где бы я ни встречался с главой в файле, но я не могу остановить извлечение данных, пока не встретится следующий тег главы. Пожалуйста помоги!!

Введите здесь код:

from bs4 import BeautifulSoup
import requests

f = open("C:\\Users\\SPIDEY\\Downloads\\Big-Data-Analytics-with-R-and-Hadoop.html", encoding="utf8")     
soup = BeautifulSoup(f)
g=soup.find_all('span',{'style':"font-size:20px;font-family:'Arial';font-weight:bold;"}) #tag and style having chapter names
k=1
for j in g:
    #print(j)
    jj=j.text
    new_tag=soup.new_tag("chapter"+str(k))
    new_tag.append(j.text)
    j.insert_after(new_tag)
    k=k+1
    print(new_tag) #Shows the tags added to chapter text

l=['chapter1','chapter2','chapter3','chapter4','chapter5','chapter6','chapter7']
for r in l:
    print(soup.find(r).text)
    print (soup.find_all_next(r).text)

! [1]: https://i.stack.imgur.com/ZunTy.png! [2]: https://i.stack.imgur.com/UvIrN.png

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...