Python - Преобразование таблицы PDF в CSV по именам заголовков, когда ячейки и столбцы не имеют одинаковой ширины - PullRequest
0 голосов
/ 01 февраля 2020

Я хочу преобразовать все файлы PDF в каталоге (WaterAccounting) в файлы CSV по имени заголовка. Таким образом, данные будут экспортированы в правый столбец выходного файла CSV.
Вот один из примеров файла PDF (все они имеют одинаковый формат): https://www.usbr.gov/mp/cvo/vungvari/dout0518.pdf

Я попробовал приведенный ниже код, который преобразует PDF-файлы, но формат выходного CSV-файла неверен, поскольку некоторые ячейки заголовка разделены на 3 столбца в PDF-файле.

import tabula
import os
import glob

Scr="./WaterAccounting"

pdf_files=glob.glob("%s/*.pdf" % Scr)
for file in pdf_files:
 tabula.convert_into_by_batch(Scr, output_format="CSV", pages='all')

Есть ли способ получить чистый вывод в правильном формате?

...