PDF Page Split - размер PDF увеличивается - PullRequest
0 голосов
/ 01 мая 2020

Я создал PDF Splitter, используя PyPDF2. Он разбивает PDF-файлы размером более 20 МБ на несколько небольших PDF-файлов.

Логика c, которую я использую, состоит в том, чтобы разбить все страницы на отдельные PDF-страницы, найти размер каждого. Добавьте размеры до 20 МБ и разделите их.

Проблема, с которой я сталкиваюсь, состоит в том, что в PDF есть определенные страницы, размер которых почти равен размеру исходного PDF. Хотя, когда я делаю извлечение страниц вручную, размер составляет около 500 КБ.

Не уверен, почему размер увеличивается. Пожалуйста, помогите мне решить эти проблемы.

for i in range(pdf_reader.numPages):
    # New PDF with each page
    outputpdf = newpath + '\\' + pp.split('.pdf')[0] + 'page' + str(i+1) +'.pdf'

    #PDF Writer

    output = PyPDF2.PdfFileWriter()

    #Writing each page to PDF Writer

    output.addPage(pdf_reader.getPage(i))

    #Write into the new PDF

    with open(outputpdf, "wb") as outputStream:

         output.write(outputStream)

1 Ответ

0 голосов
/ 05 мая 2020

После нескольких проб и ошибок я смог найти ответ. Я использовал библиотеку pdfrw для извлечения каждой страницы вместо PyPDF2, и я больше не сталкиваюсь с той же проблемой.

...