Как программно добавлять закладки в несколько файлов PDF - PullRequest
1 голос
/ 28 мая 2019

У меня есть коллекция из ~ 300 файлов PDF, каждый из которых представляет собой заархивированный журнал. Выпуски в среднем около 60 страниц каждая.

У меня есть электронная таблица, в которой указаны начальные страницы и заголовки статей в каждом выпуске / PDF, которые я хотел бы добавить в виде закладок к отдельным файлам PDF. В таблице около 9000 строк. После обработки каждый из 300 выпусков (каждый отдельный файл PDF) должен содержать соответствующие закладки для соответствующих статей.

У меня уже есть некоторый простой код на Python, использующий PyPDF2 и Pandas, который вставит список закладок в отдельный PDF.

Я должен быть в состоянии перенести данные электронной таблицы в мою программу, используя pandas, выбрать первую статью по имени файла проблемы, добавить связанные закладки в файл PDF и перейти к следующему файлу.

Я могу заставить панд укладывать закладки по имени файла, но не могу выбрать закладку и данные страницы или выполнить итерацию по именам файлов.

Пример кода для группы панд по имени файла:

import pandas as pd
import numpy as np

#load the pdf filename and bookmark list
dfPdfBmk = pd.read_csv('bookmarkstest.csv')

marksGroupedbyFile = dfPdfBmk.reset_index().groupby(['filename','Subject']).sum()
print (marksGroupedbyFile.head())

Я пытаюсь понять, как выбрать имя файла, закладку и данные страницы ...

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...