Как анализировать структурированный PDF для сбора метаданных всех текстов и блоков в качестве словаря данных - PullRequest
0 голосов
/ 19 сентября 2018

Мне нужно знать библиотеку, которая помогает анализировать структурированный pdf, чтобы собрать содержащийся текст и поля в качестве словаря данных.Со словарем собранных данных я хотел бы манипулировать ими и переписать PDF.Я советую использовать Ghostscript, но я не уверен, как это может мне помочь, так как это интерпретатор для PostScript.Может кто-нибудь, пожалуйста, помогите мне двигаться в правильном направлении.

1 Ответ

0 голосов
/ 19 сентября 2018

Ghostscript анализирует PDF-файлы, а также интерпретирует PostScript.На самом деле интерпретатор PDF написан на PostScript.

Поскольку интерпретатор PDF - это программа PostScript, теоретически вы можете использовать ее для достижения желаемого, но, честно говоря, это не очень хорошая идея.Программа интерпретатора PDF очень сложна, и вам нужно быть опытным программистом PostScript, чтобы с пользой ее изменить.

Обратите внимание, что вопросы, касающиеся рекомендаций по программному обеспечению, не относятся к теме переполнения стека.

...