Разбор локального HTML файла с использованием Python - PullRequest
0 голосов
/ 29 января 2020

У меня есть HTML файл, содержащий мои контакты. Я хочу извлечь каждый контакт с его номерами телефонов. Проблема в том, что есть контакты без телефонных номеров, а есть другие с более чем одним.

У каждого контакта есть поле, подобное этому: Contact Box

И эти Вот подробности о коробке: Box Details

Я попытался получить все имена в виде списка и все номера телефонов в виде списка, но это не будет иметь смысла, если я прикрепил их вместе. У меня вопрос как прикрепить каждый номер телефона к нужному контакту? Я могу игнорировать те, у которых нет номера телефона или сделать его пустым. Любая помощь?

1 Ответ

0 голосов
/ 29 января 2020

Пожалуйста, преобразуйте html в таблицу hmtl, тогда вы сможете быстрее ее проанализировать

ниже приведен пример кода

from pprint import pprint
import pandas as pd

data = """
<table>
<tr>
<td>name</td>
<td>sample name</td>
</tr>

<tr>
<td>number</td>
<td>123456789</td>
</tr>
</table>
"""

df = pd.read_html(data, flavor="lxml")[0]

new_header = df.iloc[0]
df = df[1:]
df.columns = new_header

pprint(df.to_dict('records'))
...