Я использую Camelot для чтения PDF-файлов и распечатки таблиц, но похоже, что он не читает таблицы должным образом. Я использовал PDF-файл для преобразования с веб-сайта и получил ожидаемые результаты, поэтому я предполагаю, что таблицы существуют. Я также выделил pdf и заметил, что текст выложен в виде таблицы. Я собираюсь рассмотреть другие возможности, но, похоже, я могу выбрать определенные c таблицы с камелотом, что идеально подходит для того, что я пытаюсь сделать. у меня вопрос: почему это может быть так и есть ли что-то еще, что могло бы это сделать. спасибо
я попробовал:
file = "file.pdf"
tables = camelot.read_pdf(file, pages = "1-end")
print(tables[2].df)
и получил это в результате:
IndexError: list index out of range
итак, я попробовал это:
file = "file.pdf"
tables = camelot.read_pdf(file, pages = "1-end")
print(tables.n)
и получил 0.
ожидаемые результаты должны быть примерно такими:
name id
job number
address none
address xyz
address date
company name
quarter report
date
Group Manager quarter1 quarter2 quarter3 quarter4 total
element2 A $ $ $ $ $
notElement B $ $ $ $ $
card3 C $ $ $ $ $
box4 D $ $ $ $ $
element3 E $ $ $ $ $
box1 F $ $ $ $ $
notElement B $ $ $ $ $
notElement C $ $ $ $ $
card7 D $ $ $ $ $
element4 E $ $ $ $ $
quarter1 quarter2 quarter3 quarter4
average $ $
results none none
missed 1
missed 1