Я создал PDF Splitter, используя PyPDF2. Он разбивает PDF-файлы размером более 20 МБ на несколько небольших PDF-файлов.
Логика c, которую я использую, состоит в том, чтобы разбить все страницы на отдельные PDF-страницы, найти размер каждого. Добавьте размеры до 20 МБ и разделите их.
Проблема, с которой я сталкиваюсь, состоит в том, что в PDF есть определенные страницы, размер которых почти равен размеру исходного PDF. Хотя, когда я делаю извлечение страниц вручную, размер составляет около 500 КБ.
Не уверен, почему размер увеличивается. Пожалуйста, помогите мне решить эти проблемы.
for i in range(pdf_reader.numPages):
# New PDF with each page
outputpdf = newpath + '\\' + pp.split('.pdf')[0] + 'page' + str(i+1) +'.pdf'
#PDF Writer
output = PyPDF2.PdfFileWriter()
#Writing each page to PDF Writer
output.addPage(pdf_reader.getPage(i))
#Write into the new PDF
with open(outputpdf, "wb") as outputStream:
output.write(outputStream)