Заголовок и значения таблицы каскадируются в python tabula.convert_into - PullRequest
0 голосов
/ 11 апреля 2019

Я использую tabula.convert_into (python) для извлечения таблиц из PDF и размещения их в CSV. Однако я вижу, что метод устанавливает предел столбца на основе таблицы 1. Предположим, что таблица 1 в pdf имеет 3 столбца, а таблица 2 имеет 5 столбцов, в ней для csv установлено 3 столбца. Следовательно, для таблицы 2, 4 и 5 столбцы представлены в самом столбце 3. Как решить это? Любая помощь высоко ценится.

tabula.convert_into("Source_PATH\Source_file.pdf", 
   "Destination_PATH\Destination_file.csv", multiple_tables=True,
   pages='all',output_format="csv",spreadsheet=False,
   pandas_options={'header':None},guess=False,
   stream=True,area= "1,1,10000,10000", relative_area=True)
...