Я пытаюсь извлечь таблицы из PDF-файла для академических исследований с помощью tabula-py.Я частично могу это сделать.
Проблема заключается в том, что информационный кадр pandas не содержит информацию в pdf-файле для определенного типа ячеек.Исходный файл PDF составляет почти 2000 страниц, но я включаю только первую страницу здесь.
Мой файл PDF выглядит следующим образом:
Это мой код.
df = tabula.read_pdf(path, lattice = True, stream = False, pages = '1-10', pandas_options={'names':varlist}, encoding = "utf-8")
df = df.replace('\r',' ', regex=True)
df = df.replace('\xad', '')
Кроме того, это фрейм данных, который я получаю из кода выше.Извините, я не могу правильно вставить данные, хотя я пробовал разные способыЯ показываю только первые 3 столбца.
0 CJRA Таблица 8 –– Отчет о рассмотрении ходатайств над S ... NaN NaN
1 Окружной суд США по РАЙОНУ КОЛУМБИЯ NaN NaN
2 Office DocketНомер Код NOS
3 1 08cv00226 895
4 NaN NaN NaN
5 NaN NaN NaN
6 Всего дел для окружного судьи: STAMP, FREDER ... NaN 2
7 * Подано в то же времявремя в качестве первого элемента в списке ... NaN NaN
8 NaN NaN NaN
9 1 из 1 828 Прогон: 10.06.2010 NaN NaN
Как видно, первая ячейка настрока с индексом 1 не имеет той же информации, что и вторая строка таблицы PDF.В файле PDF я вижу название округа и имя судьи, на кадре данных я вижу название суда.Все остальные записи верны.
В чем может быть проблема?Большое спасибо заранее.