PDF Извлеченная классификация таблицы данных - PullRequest
0 голосов
/ 29 апреля 2020

Я работаю над проектом по извлечению таблиц данных финансовой отчетности из PDF и их классификации на основе их содержания. Обычно ожидается, что в столбце 1 будет содержаться строка, описывающая финансовую переменную / metri c, и я надеялся использовать ее содержимое для классификации типа таблицы. Хотя я ожидаю, что результат может быть не идеальным, я надеялся написать процедуру классификации для решения этой проблемы.

Чтобы дать вам некоторую подсказку, я завершил короткий пример сбора данных и создания фреймов данных:

import tabula
import wget

# Download PDF - Newcrest Mining Annual Report 2019
url = 'https://www.asx.com.au/asxpdf/20191004/pdf/4496hvpkzs2br5.pdf'
# PDF folder location
folder_location = r'C:/Users/Toby/Desktop/PDF'
# Saved PDF file
PDFfilename = folder_location+'/4496hvpkzs2br5.pdf'

wget.download(url, folder_location)
df = tabula.read_pdf(PDFfilename, pages='all')
# Print Example Table for classification
df[10]

Я пытаюсь доказать, что могу классифицировать каждый основной финансовый отчет (ie. Бухгалтерский баланс, отчет о прибылях и убытках, Изменение холдинга и т. Д. c) из любого / большинства данных годовых отчетов.

Мне бы очень хотелось услышать любые мысли о том, куда go отсюда ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...