Python: Pandas для чтения указанной таблицы c html с использованием ее уникальной таблицы Заголовок - PullRequest
0 голосов
/ 20 июня 2020

Я начинаю с Python pandas и мне нужен гид. Предположим, у меня есть файл html, состоящий из нескольких таблиц, и каждая таблица однозначно идентифицируется заголовком каждой таблицы, т.е. номер таблицы 135, и т. Д. c.

Если я буду sh использовать уникальный заголовок « Таблица 246 » для идентификации и чтения этой таблицы, как может Python Pandas специально читать эту таблицу, игнорируя другие таблицы? Мне нужно прочитать эту Таблицу 246 , используя ее Заголовок, потому что порядок таблицы в этом файле не исправлен, это динамический c.

Искали inte rnet но не нашел решения по использованию заголовка таблицы для идентификации этой таблицы.

Мое html содержимое файла

<html>
<head>
  <meta http-equiv="Content-type" content="text/html;charset=UTF-8" />
</head>
<body>
<p>
<table border=1>
<caption align=left>Table 135</caption>
<tr bgcolor="#d4d0c8" bordercolor=black>
<th bordercolor=black>User Name</th>
<th bordercolor=black>Mobile Number</th>
</tr>
<tr bordercolor=black>
<td bordercolor=black bgcolor=white>John</td>
<td bordercolor=black bgcolor=white>1234567890</td>
</tr>
</table>
</p>
<p>
<table border=1>
<caption align=left>Table 246</caption>
<tr bgcolor="#d4d0c8" bordercolor=black>
<th bordercolor=black>Salary</th>
<th bordercolor=black>Experience</th>
</tr>
<tr bordercolor=black>
<td bordercolor=black bgcolor=white>$5000</td>
<td bordercolor=black bgcolor=white>10</td>
</tr>
</table>
</p>
</body>
</html>

1 Ответ

1 голос
/ 20 июня 2020

Вы можете попробовать следующий код для извлечения таблицы html:

import pandas as pd

df = pd.read_html("test.html", match='Table 246')
df[0]

Пример кода:

https://github.com/biranchi2018/Misc/blob/master/1.Extracting%20HTML%20using%20Pandas.ipynb

Спасибо

...