У меня есть отчет в формате PDF, как на этой картинке.Я хочу импортировать отчет в df pandas для обработки данных.Мой код
import pandas as pd
from pandas import ExcelWriter
from tabula import read_pdf
df = read_pdf("doanhthu may t5.pdf", pages='all', multiple_tables=True)
print(df)
writer = ExcelWriter('doanhthu_{}.xlsx'.format(pd.datetime.today().strftime('%y%m%d_%H%M%S')))
df.to_excel(writer, 'Sheet1', index=False)
writer.save()
Но вывод первой страницы
[ 0 ... 5
0 BÁO CÁO THEO MÁY\rTừ: 01-05-2019Đến: 31-05-201... ... NaN
1 BÁO CÁO THEO MÁY\rTừ: 01-05-2019Đến: 31-05-201... ... NaN
2 Máy Trạm ... Phí dịch vụ
3 MAY01 ... 37,000
4 NaN ... 0
5 NaN ... 0
6 NaN ... 0
7 NaN ... 0
8 NaN ... 0
9 NaN ... 0
Вывод второй страницы выглядит хорошо
[45 rows x 6 columns], 0 1 2 3 ... 6 7 8 9
0 NaN NaN NaN 20-05-2019 ... 5,500 0 NaN NaN
1 NaN 20-05-2019 Member (TRUNGTQ2) 1Giờ 9Phút ... NaN NaN NaN NaN
2 NaN 20-05-2019 Member (DUONG7B) 1Giờ 36Phút ... NaN NaN NaN NaN
3 NaN 19-05-2019 Member (TUNGA8) 3Giờ 0Phút ... NaN NaN NaN NaN```