Read_HTML пропускает некоторые строки не работает - PullRequest
0 голосов
/ 14 мая 2018

Я пытаюсь соскрести с веб-сайта таблицу, в которой мой заголовок находится в строке 1, и мне нужно пропустить строки 0 и 2. Я пытаюсь выполнить следующее

tables=pd.read_html(table.get_attribute('outerHTML'),header=0,skiprows=[0,2])

Это пропускает строки 0,1 и 2, а затем получает заголовок четвертой строки. Понимаю, что проблема в скипроусах, я пробовал следующее:

skiprows=[[0],[2]] error list not hashable
header=0,skiprows=(0,2) here gets header of row 1, but skips rows 0,2 and 3 (why 3?)
skiprows=0,2 error because it is giving too many arguments

Короче говоря, мне нужно поместить строку заголовка 1 и пропустить строки 0 и 2, и я не знаю, как заставить это работать

1 Ответ

0 голосов
/ 14 мая 2018

Хорошо, в конце это правильный ответ

tables=pd.read_html(table.get_attribute('outerHTML'),header=0,skiprows=(0,2))

То, что происходило, было то, что после этого я не удалил свой предыдущий метод, чтобы удалить этот дополнительный столбец, который был

tables[0].drop(tables[0].head(1).index,inplace=True)

и это заставило таблицу отбросить не только строку 2, но и строку 3.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...