Tabula.py группирует несколько столбцов в один столбец - PullRequest
0 голосов
/ 11 июля 2020

Я пытаюсь проанализировать приведенную ниже таблицу, используя Tabula со следующим кодом:

data= tabula.read_pdf(pdf_path, pages= [16, 17], pandas_options= {'header': 2}, multiple_tables= False)

, но он объединяет некоторые столбцы вместе, как это видно при проверке результирующих столбцов Dataframe:

Index(['Unnamed: 0', 'P1 P2 P3 P4', 'P5', 'P6', 'C1 C2 C3 C4 C5', 'C6', 'C7',
       'C8', 'D1 D2 D3 D4 D5', 'D6', 'D7', 'M1 M2 M3 M4 M5 M6', 'M7', 'M8',
       'M9'],
      dtype='object')

Я попытался указать имена столбцов в параметрах pandas как col_names = ['P1', 'P2', 'P3', ..., 'M8', 'M9'], поэтому код должен быть «

data= tabula.read_pdf(pdf_path, pages= [16, 17], pandas_options= {'header': 2, 'names': col_names}, multiple_tables= False)

, но затем я получил следующее Error:

CSVParseError: Error failed to create DataFrame with different column tables.
Try to set `multiple_tables=True`or set `names` option for `pandas_options`. 
, caused by ParserError('Too many columns specified: expected 30 and found 15')

Любая помощь с этим, пожалуйста?

Стол

...