Как получить текст из таблицы html? - PullRequest
0 голосов
/ 04 мая 2020

У меня есть html:

<table class= "tb1">
<th width="100">Country,<br>Other</br></th>
<th width="20">Total<br>Customers</br></th>
<th width="30">New<br>Customers</br></th>
<th width="30">Tests/<br/>
<nobr>1M cases</nobr>
<th style="display:none" width="30">Continent</th>

Я использую xpath для получения текстов из каждой строки.



['Country,', 'Other', 'Total', 'Customers', 'New', 'Customers', 'Tests/', '\n    ', '\n    ', 'Continent']

Желаемый результат:

['Country,Other', 'TotalCustomers', 'NewCustomers', 'Tests/1M cases', 'Continent']

Я пытался использовать:


Но результат просто:


Ответы [ 2 ]

0 голосов
/ 04 мая 2020

Я бы использовал BeautifulSoup4:

pip install beautifulsoup4

Это возьмет вашу таблицу и вернет список для каждой строки; заголовок или данные

from bs4 import BeautifulSoup

html_text = '''<table class= "tb1">
        <th width="100">Country,<br>Other</br></th>
        <th width="20">Total<br>Customers</br></th>
        <th width="30">New<br>Customers</br></th>
        <th width="30">Tests/<br/>
            <nobr>1M cases</nobr>
        <th style="display:none" width="30">Continent</th>
        <td>North America</td>


soup = BeautifulSoup(html_text, 'html.parser')

def get_table():
    table = []
    for tr in soup.find_all('tr'):
        # get headers
        th = tr.find_all('th')
        # get rows
        td = tr.find_all('td')
        # listify and combine them (just in case the html is structured weird somehow)
        row = [i.text for i in th] + [i.text for i in td]
        # append the new list to the table list
    return table



[['Country,Other', 'TotalCustomers', 'NewCustomers', 'Tests/\n1M cases\n', 'Continent'], ['Country1', '20', '3', '1', 'Europe'], ['Country2', '15', '1', '3', 'North America']]

Вы также можете составить список словарей с заголовками в качестве ключей и данными в качестве значений, с которыми проще работать в python .

0 голосов
/ 04 мая 2020

Сначала используйте xpath для получения каждого <th>, а затем используйте for -l oop для получения './/text()' в каждом <th>, а затем вы можете очистить (ie. Удалить «новую строку») ) и объедините элементы, чтобы создать одну строку для каждого <th>

import lxml.html

html ='''
<table class= "tb1">
<th width="100">Country,<br>Other</br></th>
<th width="20">Total<br>Customers</br></th>
<th width="30">New<br>Customers</br></th>
<th width="30">Tests/<br/>
<nobr>1M cases</nobr>
<th style="display:none" width="30">Continent</th>

soup = lxml.html.fromstring(html)

results = []

for th in soup.xpath('//th'):
    text = ''.join(x.strip() for x in th.xpath('.//text()'))
    #text = ''.join(x.strip() for x in th.itertext())
