Ожидаемое поведение:
Чтение PDF, извлечение всех данных таблицы в pandas df.
Фактическое поведение:
Хорошо читает PDF, извлекает большинство табличных данных и сохраняет их в файл debugging.txt с fp.write(df)
. Один столбец (имена) обычно возвращает «...» только когда я просматриваю файл debugging.txt или смотрю, как терминал его печатает.
Это как 9/10 раз возвращаться ... - иногда только первая страница , но остальное в порядке. Иногда они все в порядке ... Это кажется странным.
(Я могу быть идиотом и, возможно, сокращать его, потому что это самая длинная строка в 2-3 раза. Но мой Google Fu меня подводит )
Пример ввода (имена для конфиденциальности):
Пример вывода:
21 121 87 59 2003 ... NaN NaN NaN
22 122 86 59 2026 ... NaN NaN NaN
23 123 85 60 2038 ... NaN NaN NaN
24 124 84 60 2050 ... NaN NaN NaN
25 125 83 61 2056 ... NaN NaN NaN
26 126 82 61 2095 ... NaN NaN NaN
Код :
pagecount = 0
for filename in os.listdir(SPLITDIR):
print("Working on: {}".format(filename))
if not filename.endswith(".pdf"):
print("I dont think {} is a PDF".format(filename))
continue
pagedf = read_pdf(SPLITPATH.format(pagecount) pages='all')
#print(pagedf)
debugextract.write(str(pagedf))
pagedf = pd.DataFrame(pagedf)
print(pagedf)
pagecount += 1