Я работаю над проектом по извлечению таблиц данных финансовой отчетности из PDF и их классификации на основе их содержания. Обычно ожидается, что в столбце 1 будет содержаться строка, описывающая финансовую переменную / metri c, и я надеялся использовать ее содержимое для классификации типа таблицы. Хотя я ожидаю, что результат может быть не идеальным, я надеялся написать процедуру классификации для решения этой проблемы.
Чтобы дать вам некоторую подсказку, я завершил короткий пример сбора данных и создания фреймов данных:
import tabula
import wget
# Download PDF - Newcrest Mining Annual Report 2019
url = 'https://www.asx.com.au/asxpdf/20191004/pdf/4496hvpkzs2br5.pdf'
# PDF folder location
folder_location = r'C:/Users/Toby/Desktop/PDF'
# Saved PDF file
PDFfilename = folder_location+'/4496hvpkzs2br5.pdf'
wget.download(url, folder_location)
df = tabula.read_pdf(PDFfilename, pages='all')
# Print Example Table for classification
df[10]
Я пытаюсь доказать, что могу классифицировать каждый основной финансовый отчет (ie. Бухгалтерский баланс, отчет о прибылях и убытках, Изменение холдинга и т. Д. c) из любого / большинства данных годовых отчетов.
Мне бы очень хотелось услышать любые мысли о том, куда go отсюда ...