Идентификация таблиц с линиями сетки в PDF с использованием Python с Tabula - PullRequest
0 голосов
/ 28 сентября 2018

Я пытаюсь извлечь все таблицы, содержащиеся в документе PDF (около 250 страниц).Проблема не в добыче.Проблема в идентификации таблиц.С моим алгоритмом он тоже принимает ненужные данные, такие как содержимое, иногда пули, которые мне не нужны.Я специально хочу таблицы только с линиями сетки.

from PyPDF2 import PdfFileWriter, PdfFileReader
from tabula import read_pdf
pages_required=[]
reader = PdfFileReader(open("input.pdf", mode='rb' ))
n = reader.getNumPages()
for page in [str(i+1) for i in range(n)]:
    df=read_pdf(r"input.pdf", pages=page)
    if df is not None:
        pages_required.append(page)
print(pages_required)

Это отфильтровывает страницы для меня до некоторой степени, но не полностью.Мне нужен массив только тех номеров страниц, у которых есть таблицы с линиями сетки.Есть ли способ обойти?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...