как читать # документ в питоне Beautiful Soup - PullRequest
0 голосов
/ 09 июля 2019

Привет, я изучаю Python, поэтому попытался создать простой веб-скрипт с красивым супом и запросом. Я пытаюсь захватить содержимое одной HTML-страницы. HTML это так -

<frame name="name", src="..">
    #document
        <html>
            <head>
               <script language="JavaScript" src="nav.js"></script>
            <frameset>
                <table>
........

Я пытался так:

with urllib.request.urlopen(url+page['src']) as frameurl:
    response = frameurl.read()
   # print('response',response)
    soup = BeautifulSoup(response,'html.parser')
    table =soup.find_all('#document') #want to read the data under this
    frames=getAllFrames(soup)
    for frame in frames:
        if(frame['name'] == 'leftnav'):
            print('navbar:',frame)
            #print('test',frame.getHtml())
            #frames =soup.find_all("frame")
            print('html',frame.find('html')) #gives None
            for child in frame.children:  #nothing 
                print('child',child) 

как я могу прочитать данные / таблицы внутри #document, в частности тег frameset. у frameset также есть .html, который является пустой страницей (у меня также есть базовые знания html)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...