Панды read_html не ждут загрузки страницы - PullRequest
0 голосов
/ 09 ноября 2019

Я пытаюсь прочитать таблицу по URL-адресу, используя pandas read_html, но интересующая меня таблица загружается после других частей страницы, поэтому получаемый кадр данных похож на приведенный ниже, а не на фактическое содержимое:

ColumnA     |     ColumnB

Still loading |    Still loading

Так есть ли способ сообщить read_html, что нужно дождаться полной загрузки таблицы и затем прочитать таблицу?

1 Ответ

0 голосов
/ 09 ноября 2019

Мы никак не можем ответить наверняка без конкретного примера кода, но вы должны знать, что read_html сканирует статическую версию HTML, как она подается;он не ждет, пока JavaScript выполнит (вероятно, то, что вы видите, происходит в браузере, когда таблица «загружается»), потому что сканер HTML вообще не выполняет JavaScript.

Вы можететакже читайте больше о распространенных ошибках HTML-поиска с пандами здесь , хотя они будут более важны для производительности, чем для ожидания обновления вторичной страницы.

Если вам нужно включить обновления javascript впри сканировании вам может понадобиться заглянуть в браузер без головы, например Selenium [docs] или вопрос без заголовка [ * ].

...