Импортировать таблицу из многостраничных PDF-файлов в фрейм данных - PullRequest
0 голосов
/ 24 сентября 2019

Pictue of report 1 Pictue of report 2 У меня есть отчет в формате PDF, как на этой картинке.Я хочу импортировать отчет в df pandas для обработки данных.Мой код

import pandas as pd
from pandas import ExcelWriter
from tabula import read_pdf

df = read_pdf("doanhthu may t5.pdf", pages='all', multiple_tables=True)
print(df)
writer = ExcelWriter('doanhthu_{}.xlsx'.format(pd.datetime.today().strftime('%y%m%d_%H%M%S')))
df.to_excel(writer, 'Sheet1', index=False)
writer.save()

Но вывод первой страницы

[                                                    0  ...            5
0   BÁO CÁO THEO MÁY\rTừ: 01-05-2019Đến: 31-05-201...  ...          NaN
1   BÁO CÁO THEO MÁY\rTừ: 01-05-2019Đến: 31-05-201...  ...          NaN
2                                            Máy Trạm  ...  Phí dịch vụ
3                                               MAY01  ...       37,000
4                                                 NaN  ...            0
5                                                 NaN  ...            0
6                                                 NaN  ...            0
7                                                 NaN  ...            0
8                                                 NaN  ...            0
9                                                 NaN  ...            0

Вывод второй страницы выглядит хорошо

[45 rows x 6 columns],      0           1                   2            3  ...      6    7   8   9
0  NaN         NaN                 NaN   20-05-2019  ...  5,500    0 NaN NaN
1  NaN  20-05-2019   Member (TRUNGTQ2)   1Giờ 9Phút  ...    NaN  NaN NaN NaN
2  NaN  20-05-2019    Member (DUONG7B)  1Giờ 36Phút  ...    NaN  NaN NaN NaN
3  NaN  19-05-2019     Member (TUNGA8)   3Giờ 0Phút  ...    NaN  NaN NaN NaN```
...