Python утилизации селена - PullRequest
0 голосов
/ 11 ноября 2019

Я пытаюсь извлечь данные таблицы из этой страницы .

Пробовал с bs4 и селеном, но данные таблицы не появляются в коде, пробовал режим ожидания в селенетакже не дал.

from selenium import webdriver
url = 'https://www.rad.cvm.gov.br/ENETCONSULTA/frmGerenciaPaginaFRE.aspx?NumeroSequencialDocumento=82594&CodigoTipoInstituicao=2'
driver = webdriver.Safari()
driver.get(url)
iframe = driver.find_element_by_tag_name('iframe')
driver.switch_to.frame(iframe)
driver.page_source

1 Ответ

2 голосов
/ 11 ноября 2019

Вам помогут панды. Я сделал это. Выход выглядит лучше, хотя. Возможно, вам придется сначала установить lxml. Итак, сначала

!pip3 install lxml

, затем

import pandas as pd
from selenium import webdriver
url = 'https://www.rad.cvm.gov.br/ENETCONSULTA/frmGerenciaPaginaFRE.aspx?NumeroSequencialDocumento=82594&CodigoTipoInstituicao=2'
driver = webdriver.Chrome()
driver.get(url)
iframe = driver.find_element_by_tag_name('iframe')
driver.switch_to.frame(iframe)


dfs = pd.read_html(driver.page_source)
print(dfs[0].head())

#output
      0                                                  1  \
0    Conta                                          Descrição   
1     3.01               Receitas da Intermediação Financeira   
2  3.01.01                     Receita de Juros e Rendimentos   
3  3.01.02                              Receita de Dividendos   
4  3.01.03  Resultado de Operações de Câmbio e Variação Ca...   

                         2                        3  
0  01/01/2019 a 31/03/2019  01/01/2018 a 31/03/2018  
1               17.010.000               16.856.000  
2                6.142.000                5.973.000  
3                      NaN                      NaN  
4                  303.000                 -145.000  
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...