Преобразовать папку PDF-файлов в CSV-значения CMYK - PullRequest
0 голосов
/ 03 июня 2018

tldr: как я могу преобразовать папку pdfs в список значений CMYK (или RGB или любого типа значений цветовой шкалы), предпочтительно в python.

У меня есть папка с ~ 100 000 документов в ней.Чтобы упростить выборку этих документов, я хочу провести анализ данных в документах (кластеризация и обнаружение аномалий), и один из показателей, который я хочу получить, - это покрытие CMYK.Есть ли какой-либо метод или пакет в (предпочтительно) Python, который будет рассчитывать покрытие CMYK PDF?

**** edit ****

После некоторого исследования я обнаружил, чтоGhostScript должен предоставить мне необходимую функциональность, если бы кто-нибудь мог помочь мне с реализацией, я все равно был бы очень признателен.

1 Ответ

0 голосов
/ 03 июня 2018

./gs -sDEVICE=inkcov -sOutputFile=out.txt input.pdf должен давать вам каждую страницу покрытия CMYK в файле.

Вы можете использовать -dQUIET -o - вместо -sOutputFile для отправки вывода на стандартный вывод.

Затем вам нужнонекоторые пакетные сценарии, которые будут зависеть от вашей операционной системы.В Windows что-то вроде:

for %s in (folder/*.pdf) do gswin64c -dQUIET -sDEVICE=inkcov -o - "%s" >> coverage.txt

должно взять каждый файл из папки, запустить его через устройство inkcov и отправить вывод на стандартный вывод, который мы перенаправляем в файл и используем >>, чтобы каждыйвыполнение добавляется в файл, а не перезаписывает предыдущий вывод.

Вам потребуется удалять выходной файл после каждого запуска курса.

...