Необычные результаты с Tabula Python Parsing PDFs - PullRequest
0 голосов
/ 29 мая 2020

TL; DR: я пытаюсь разобрать PDF-файл для чтения в python базовые данные (как pandas фреймы данных). Табула испытывает трудности с синтаксическим анализом, так как таблицы находятся в двух столбцах.

Цель: я пытаюсь разобрать PDR и превратить его в pandas dataframe. Я использую библиотеки Tabula и PyPDF2. Вот что я пробовал до сих пор:

# pdf file object
pdfFileObj = open(url, 'rb')
# pdf reader object
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
# number of pages in pdf
print(pdfReader.numPages)
# a page object
pageObj = pdfReader.getPage(0)

# read in the PDF file that contain Table Data
# read_pdf will save the pdf table into Pandas Dataframe
df = tabula.read_pdf('https://www.empirecitycasino.com/wp-content/uploads/2020/03/3-2-mon-results.pdf',
                     multiple_tables=True, 
                     stream=True, 
                     guess=False)

df

Результирующий DF: enter image description here

Теперь, как вы можете видеть, данные не анализируются правильно. tablula проанализировала данные как два столбца, вероятно, из-за того, что таблицы представлены в формате PDF с двумя столбцами.

Как я могу правильно проанализировать эти данные, чтобы у меня был фрейм данных для каждой отдельной таблицы для дальнейшей обработки?

...