Как извлечь набор чисел в одном столбце с каждой страницы PDF? - PullRequest
0 голосов
/ 04 июня 2019

Мне нужно извлечь два числа с каждой страницы (в столбце «Drop / Handle») PDF-файла размером от 7 до 9 страниц.Вот пример PDF: https://www.nj.gov/oag/ge/docs/Financials/MGR2017/201701revenue.pdf

Вместо того, чтобы писать отдельные сценарии для каждой страницы, есть ли код, который я могу использовать для автоматического определения двух чисел на основе их положения?(Числа почти всегда находятся в одинаковом положении и формате для каждой страницы).

До сих пор я делал это

files = '201701revenue.pdf'
path = r'C:\Users\201701revenue.pdf' 

df = tabula.read_pdf(path, pages = 'all', index_col=0, multiple_tables=True)
df=df[0] 
df=df[[6]]
df=df[3:6]
df=df.drop([4])
df.columns=['Casino Handle']
df = df.reset_index(drop=True)
df['Casino Handle'] = df['Casino Handle'].str.replace(",","").str.replace(" ","")
df['Casino Handle'] = df['Casino Handle'].apply(pd.to_numeric, errors='coerce')
df=df.append(df.sum(numeric_only=True), ignore_index=True)
df=df.drop([0,1])

df.append(df1, ignore_index=True)

Несмотря на то, что tabula считывает все страницы, он распознает две отдельные таблицы на странице, поэтому, если бы я вызвал конкретный столбец, выдается ошибкаподходит и говорит KeyError: "None of [Int64Index([6], dtype='int64')] are in the [columns]"

...