Как извлечь страницу, содержащую изображение в PDF с Python? - PullRequest
0 голосов
/ 20 декабря 2018

У меня 4000 отсканированных документов в формате PDF.Каждый pdf содержит форму kyc, которую я хочу извлечь. Каждый pdf имеет 40 страниц. Какие методы мы можем использовать, чтобы получить номер страницы изображения, так как я могу извлечь страницу, используя pdf2image, при условии, что у меня есть номер страницы.

enter image description here

enter image description here

Форма kyc будет аналогичной, и будут опубликованы изображения.Я размыл изображение, но оно будет лучше

1 Ответ

0 голосов
/ 20 декабря 2018

Это упрощенный подход, который сканирует все закладки, чтобы найти соответствующий объект, а затем сканирует каждую страницу, пока он не совпадает с одним и тем же объектом.Возможно, не самый элегантный подход, но должен выполнить свою работу.

from PyPDF2 import PdfFileReader
reader = PdfFileReader('D:\\Downloads\Sample.pdf')

# Scan outlines for bookmark containing KYC
outlines = reader.outlines
print(outlines)
for bookmark in outlines:
    print(bookmark['/Title'])
    print(bookmark['/Page'])
    if bookmark['/Title'] == 'KYC':
        mypage = bookmark['/Page']

# Scan page looking for the matching object        
print(reader.getNumPages())
for x in range(0, reader.getNumPages()): 
    apage = reader.getPage(x)
    print(apage)
    if apage == mypage:
        print('Eureka on page', x + 1)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...