У меня есть коллекция из ~ 300 файлов PDF, каждый из которых представляет собой заархивированный журнал. Выпуски в среднем около 60 страниц каждая.
У меня есть электронная таблица, в которой указаны начальные страницы и заголовки статей в каждом выпуске / PDF, которые я хотел бы добавить в виде закладок к отдельным файлам PDF. В таблице около 9000 строк. После обработки каждый из 300 выпусков (каждый отдельный файл PDF) должен содержать соответствующие закладки для соответствующих статей.
У меня уже есть некоторый простой код на Python, использующий PyPDF2 и Pandas, который вставит список закладок в отдельный PDF.
Я должен быть в состоянии перенести данные электронной таблицы в мою программу, используя pandas, выбрать первую статью по имени файла проблемы, добавить связанные закладки в файл PDF и перейти к следующему файлу.
Я могу заставить панд укладывать закладки по имени файла, но не могу выбрать закладку и данные страницы или выполнить итерацию по именам файлов.
Пример кода для группы панд по имени файла:
import pandas as pd
import numpy as np
#load the pdf filename and bookmark list
dfPdfBmk = pd.read_csv('bookmarkstest.csv')
marksGroupedbyFile = dfPdfBmk.reset_index().groupby(['filename','Subject']).sum()
print (marksGroupedbyFile.head())
Я пытаюсь понять, как выбрать имя файла, закладку и данные страницы ...