Я использую пакет tabula в python 3 для получения данных из таблиц в pdf.
Я пытаюсь импортировать таблицы из нескольких PDF-файлов онлайн (например, http://trreb.ca/files/market-stats/community-reports/2019/Q4/Durham/AjaxQ42019.pdf ), но у меня возникают проблемы даже с правильным импортированием одной таблицы.
Вот код, который я запустил:
! pip install -q tabula-py
! pip install pandas
import pandas as pd
import tabula
from tabula import read_pdf
pdf = "http://trebhome.com/files/market-stats/community-reports/2019/Q4/Durham/AjaxQ42019.pdf"
data = read_pdf(pdf, output_format='dataframe', pages="all")
data
, который дает следующий вывод:
[ Community Sales Dollar Volume ... Active Listings Avg. SP/LP Avg. DOM
0 Ajax 391 $265,999,351 ... 73 100% 21
1 Central East 32 $21,177,488 ... 3 99% 26
2 Northeast Ajax 70 $50,713,199 ... 18 100% 21
3 South East 105 $68,203,487 ... 15 100% 20
[4 rows x 9 columns]]
Какой кажется работающим, за исключением того, что он пропустил все остальные строки после "Центрального Востока". Вот фактическая таблица, о которой идет речь, из pdf-файла по URL-адресу в приведенном выше коде: Ajax Q4 2019
Я также попытался поиграться с некоторыми опциями в read_pdf
функция, с минимальными результатами.
Конечной целью будет скрипт, который просматривает все эти «Отчеты сообщества» (их немало), извлекает все такие таблицы из PDF-файлов и объединяет их в одну. фрейм данных в python для анализа.
Если вопрос не ясен или требуется дополнительная информация, пожалуйста, дайте мне знать! Я новичок как в python, так и в обмене стека, поэтому извиняюсь, если не правильно подставляю вещи.
И, конечно, любая помощь будет очень признательна!
Брин