Tabula-py возвращает '...' для одного указанного c столбца в df. все остальное, кажется, работает, - PullRequest
0 голосов
/ 04 марта 2020

Ожидаемое поведение:

Чтение PDF, извлечение всех данных таблицы в pandas df. ​​

Фактическое поведение:

Хорошо читает PDF, извлекает большинство табличных данных и сохраняет их в файл debugging.txt с fp.write(df). Один столбец (имена) обычно возвращает «...» только когда я просматриваю файл debugging.txt или смотрю, как терминал его печатает.

Это как 9/10 раз возвращаться ... - иногда только первая страница , но остальное в порядке. Иногда они все в порядке ... Это кажется странным.

(Я могу быть идиотом и, возможно, сокращать его, потому что это самая длинная строка в 2-3 раза. Но мой Google Fu меня подводит )

Пример ввода (имена для конфиденциальности):

Sample Input

Пример вывода:

21        121         87    59 2003  ...         NaN        NaN         NaN
22        122         86    59 2026  ...         NaN        NaN         NaN
23        123         85    60 2038  ...         NaN        NaN         NaN
24        124         84    60 2050  ...         NaN        NaN         NaN
25        125         83    61 2056  ...         NaN        NaN         NaN
26        126         82    61 2095  ...         NaN        NaN         NaN

Код :

pagecount = 0
for filename in os.listdir(SPLITDIR):

    print("Working on: {}".format(filename))

    if not filename.endswith(".pdf"):
        print("I dont think {} is a PDF".format(filename))
        continue

    pagedf = read_pdf(SPLITPATH.format(pagecount) pages='all')
    #print(pagedf)
    debugextract.write(str(pagedf))

    pagedf = pd.DataFrame(pagedf)
    print(pagedf)

    pagecount += 1

1 Ответ

0 голосов
/ 08 марта 2020

Это не из Табулы, но я python или настройки дисплея Jupyter.

См. Также https://github.com/chezou/tabula-py/issues/216#issuecomment -581837621

...