Панды и HTML-теги - PullRequest
       9

Панды и HTML-теги

0 голосов
/ 08 декабря 2018

Я пытаюсь убрать таблицы с этого сайта .Когда я загружаю URL с помощью pd.read_html, я получаю серию фреймов данных, как и ожидалось, но проблема в том, что HTML-теги, которые находятся в ячейке таблиц, исчезли.Можно ли как-нибудь скопировать таблицы и сохранить HTML-код в ячейках таблицы, используя панд?

import pandas as pd

df = pd.read_html('http://geppopotamus.info/game/tekken7fr/asuka/data.htm#page_top')

Я хочу, чтобы ячейка была такой

<span class="tooltip" title="すいけい">翠勁
<sup>ヨミ</sup></span><br>
<img src="../lp.bmp" class="c">/上

, но я получаюthis

翠勁 ヨミ /上

Я использовал красивый суп для разбора HTML, затем передал данные пандам, которые по-прежнему удаляют внутренний HTML.

1 Ответ

0 голосов
/ 08 декабря 2018

pandas read_html уже проанализировал ваш html.Как уже упоминалось в комментариях, посмотрите, возможно, BeautifulSoup.Далее извлекаются все теги таблицы html.Вы можете настроить селектор CSS по мере необходимости.

import requests
from bs4 import BeautifulSoup
url = 'http://geppopotamus.info/game/tekken7fr/asuka/data.htm#page_top'
res = requests.get(url)
soup = BeautifulSoup(res.content,'lxml')
tables = [str(table) for table in soup.select('table')]
print(tables)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...