Преобразование PDF в Excel (получение определенных c таблиц с помощью Camelot) - PullRequest
0 голосов
/ 04 августа 2020

Я использую Camelot для чтения PDF-файлов и распечатки таблиц, но похоже, что он не читает таблицы должным образом. Я использовал PDF-файл для преобразования с веб-сайта и получил ожидаемые результаты, поэтому я предполагаю, что таблицы существуют. Я также выделил pdf и заметил, что текст выложен в виде таблицы. Я собираюсь рассмотреть другие возможности, но, похоже, я могу выбрать определенные c таблицы с камелотом, что идеально подходит для того, что я пытаюсь сделать. у меня вопрос: почему это может быть так и есть ли что-то еще, что могло бы это сделать. спасибо

я попробовал:

file = "file.pdf"
tables = camelot.read_pdf(file, pages = "1-end")
print(tables[2].df)

и получил это в результате:

IndexError: list index out of range

итак, я попробовал это:

file = "file.pdf"
tables = camelot.read_pdf(file, pages = "1-end")
print(tables.n)

и получил 0.

ожидаемые результаты должны быть примерно такими:

name                                        id
job                                     number
address                                 none    
address                                 xyz 
address                                 date    
            company name                            
            quarter report                          
            date                            
Group   Manager     quarter1    quarter2    quarter3    quarter4                total
element2    A           $          $           $           $                      $
notElement  B           $          $           $           $                      $
card3       C           $          $           $           $                      $
box4        D           $          $           $           $                      $
element3    E           $          $           $           $                      $
box1        F           $          $           $           $                      $
notElement  B           $          $           $           $                      $
notElement  C           $          $           $           $                      $             
card7       D           $          $           $           $                      $
element4    E           $          $           $           $                      $
                                        
               quarter1 quarter2 quarter3 quarter4                      
average           $        $                                
results          none     none                              
missed                     1                                
missed                     1            
...