Извлечение только черного текста из PDF - PullRequest
0 голосов
/ 13 ноября 2018

У меня есть куча PDF-файлов, содержащих тексты песен (черным шрифтом) и аккорды (синим шрифтом) прямо между буквами.

Можно ли извлечь только текст черным шрифтом и пропустить весь текст другими цветами?

1 Ответ

0 голосов
/ 13 ноября 2018

Вы могли бы, приложив значительные усилия, сделать это в Ghostscript, но это означало бы изменение интерпретатора PDF специально для этой задачи (не значит, подвиг).

Вы должны знать точный цвет, который вы хотелибросить (или, наоборот, сохранить).Затем вы изменяете каждый текст, отображающий операторы (TJ, Tj, 'и "), которые определены в /ghostpdl/Resource/Init/pdf_ops.ps. Сначала вы проверяете текущий цвет, если вы хотите, чтобы он был тем, который вы хотите, иобработайте текст, в противном случае извлеките строку и вернитесь без обработки.

Обратите внимание, что вам нужно либо пересобрать Ghostscript, либо указать ему использовать измененные файлы с помощью ключа -I в командной строке.

Запустите исходный файл PDF в качестве ввода, выберите устройство pdfwrite и создайте новый файл, в котором текст будет отсутствовать.

Это может дать неожиданные результаты, если следующий текст опирается на текущую точкуперемещение в предыдущей операции. В этом случае вы можете попробовать изменить цвет на белый, прежде чем рисовать его. Это само по себе имеет недостатки: если страница не белая под текстом все равно будет отображаться, копирование и пастер по-прежнему будет братьбелый текст, даже если он невидим.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...