Я делаю проект в рамках академической программы. Я делаю это на платформе Linux. Здесь я хотел создать приложение, которое извлекает некоторую информацию из некоторых файлов PDF. Например, у меня есть PDF-файлы subject2, subject1, как в целом PDF разделен на 4 модуля, и я хочу получить данные модуля 1 из pdf. Для этого мой преподаватель сказал мне использовать приложение pdftohtml и конвертировать pdf файлы в html и jpeg images. Теперь я хочу создать скрипт на Python который объединит страницы (которые были покрыты изображениями в формате jpeg) в модуле 1 и объединит их в один файл, а затем я преобразую его обратно в pdf. Как я могу это сделать? Если кто-то может предоставить любой такой скрипт на Python, который выполняет любые функции, подобные этому, то это будет очень полезно.
....
заранее спасибо