Давайте предположим, что у меня есть файл PDF с 300 страницами. На самом деле это 100 форм (всегда 3 страницы на форму). На первой странице формы есть текстовое значение, которое определит, к какому выходному файлу оно будет go. Это значение начинается с буквы «G» и 3 числовых значений (т. Е. «G100». «G201» и т. Д. c). И здесь начинается проблема для меня. Формы перепутаны в PDF. Я покажу, что я имею в виду:
1st page: G100
4th page: G201
7th page: G100
10th page: G256
...
298th page: G100
Исходя из этого, я должен создать вывод: "G100.pdf", который будет содержать страницы 1-3, 7-9, 298-300. И то же самое для каждого уникального типа формы. Я не знаю, сколько будет типов, как они будут называться (кроме описанного шаблона) и сколько диапазонов страниц у них будет.
Есть ли способ выполнить sh, что используя python? Я видел несколько способов использования PyPDF2 для разделения страниц, но я не знаю, как эффективно это сделать в больших PDF-файлах с несмежными данными.