Я пытаюсь очистить эту таблицу (https://rk.americaeconomia.com/display/embed/multilatinas/2019). Как видите, в таблице есть два типа строк: «dataRow» и «extraDataRow», и оба типа строк относятся к одной и той же фирме / компании.
Я пробовал приведенный ниже код, но я Не могу создать Словарь с необходимой информацией. Любая помощь приветствуется за выполнение двух задач: (1) очистить всю таблицу обоими типами строк и (2) создать фрейм данных для хранения «всех» данных, относящихся к каждой фирме.
Спасибо заранее.
def getHTMLContent(link):
html = urlopen(link)
soup = BeautifulSoup(html, 'html.parser')
return soup
content = getHTMLContent('https://rk.americaeconomia.com/display/embed/multilatinas/2019')
tables = content.find_all('table')
table = content.find('table', {'class': 'table'})
for tr in table.find_all('tr'):
if(tr.get('class')==['dataRow']):
print(cell.text)
elif ((tr.get('class') == ['extraDataRow'])):
print(cell.text)
Мой результат должен выглядеть так
Firm Country Sector %Multi Ranking18 Total sales 2018 ...
Cols 1-4 are in "dataRow". Cols 5, 6 ....... are in "extraDataRow".
В «extraDataRow» у меня 32 столбца с дополнительной информацией по каждой фирме, и мне нужна информация обо всех эти 32 столбца объединены с информацией первых четырех столбцов («dataRow»). Мне нужна вся информация в виде таблицы.