Я пытаюсь объединить 2 PDF в 1 PDF, а не просто добавить 1 к другому. Оба PDF-файла содержат только изображения, отсканированные тексты, которые я позже опишу с Pytesseract Python.
Я понятия не имею об этом, так что все это немного сбивает с толку. Я изменил сплиттер, чтобы разделить PDF-файл на 43 PDF-файла, поэтому у меня вроде есть прогресс. Просто надо научиться объединять вещи в правильном порядке!
def pdf_splitter(path):
fname = os.path.splitext(os.path.basename(path))[0]
pdf = PdfFileReader(path)
for page in range(pdf.getNumPages()):
pdf_writer = PdfFileWriter()
pdf_writer.addPage(pdf.getPage(page))
output_filename = '{}_page_{}.pdf'.format(
fname, page+1)
with open(pathToPdf + output_filename, 'wb') as out:
pdf_writer.write(out)
print('Created: {}'.format(output_filename))
Я нашел эту функцию здесь :
# pdf_merger2.py
import glob
from PyPDF2 import PdfFileMerger
def merger(output_path, input_paths):
pdf_merger = PdfFileMerger()
file_handles = []
for path in input_paths:
pdf_merger.append(path)
with open(output_path, 'wb') as fileobj:
pdf_merger.write(fileobj)
if __name__ == '__main__':
paths = glob.glob('fw9_*.pdf')
paths.sort()
merger('pdf_merger2.pdf', paths)
Я отсканировал более 100 страниц документа, нечетные страницы в oddpages.pdf и четные страницы в evenpages.pdf. Теперь мне нужно написать страницу 1 файла oddpages.pdf в allpages.pdf, затем добавить страницу 1 файла evenpages.pdf в файл allpages.pdf и т. Д.
У меня еще нет allpages.pdf. Мне нужно его создать.
Мои 2 файла находятся в / home / pedro / pdfs /
Очень благодарен за любые советы, указатели или идеи.