Question

У меня 4000 отсканированных документов в формате PDF.Каждый pdf содержит форму kyc, которую я хочу извлечь. Каждый pdf имеет 40 страниц. Какие методы мы можем использовать, чтобы получить номер страницы изображения, так как я могу извлечь страницу, используя pdf2image, при условии, что у меня есть номер страницы.

Форма kyc будет аналогичной, и будут опубликованы изображения.Я размыл изображение, но оно будет лучше

Ed Sheehan · Answer 1 · 20 декабря 2018

Это упрощенный подход, который сканирует все закладки, чтобы найти соответствующий объект, а затем сканирует каждую страницу, пока он не совпадает с одним и тем же объектом.Возможно, не самый элегантный подход, но должен выполнить свою работу.

from PyPDF2 import PdfFileReader
reader = PdfFileReader('D:\\Downloads\Sample.pdf')

# Scan outlines for bookmark containing KYC
outlines = reader.outlines
print(outlines)
for bookmark in outlines:
    print(bookmark['/Title'])
    print(bookmark['/Page'])
    if bookmark['/Title'] == 'KYC':
        mypage = bookmark['/Page']

# Scan page looking for the matching object        
print(reader.getNumPages())
for x in range(0, reader.getNumPages()): 
    apage = reader.getPage(x)
    print(apage)
    if apage == mypage:
        print('Eureka on page', x + 1)

Как извлечь страницу, содержащую изображение в PDF с Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь страницу, содержащую изображение в PDF с Python?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов