Ну read_html
может читать таблицы в html документе. И текст ошибки правильный: документ не содержит таблицы, но отформатирован с использованием набора div
элементов.
Это означает, что pandas не может обработать его напрямую. Вместо этого вы должны использовать BeautifulSoup для анализа html и извлечения соответствующей информации в списки и словари, а затем создать кадр данных из этих python контейнеров.
Правило состоит в том, что это зависит от стр. Обычный способ - использовать инструменты разработчика в вашем браузере, чтобы увидеть, как устроена страница, и определить соответствующие элементы. Затем вы управляете источником отображения , чтобы элементы передавались с HTML, а не через javascript. Здесь вам повезло, потому что данные находятся прямо внутри HTML части.
Так что вам следует:
- использовать запросы или urllib.request для загрузки страницы
- используйте BeautifulSoup для извлечения элементов, идентифицированных в инструменте разработчика браузера *
- объединить все