Получить все слова в PDF + их местоположение без взаимодействия - PullRequest
2 голосов
/ 22 февраля 2011

Мне нужно проанализировать PDF-файл с кодом C # и извлечь из него каждое слово, а также местоположение этого слова в документе. Я не могу использовать взаимодействие, так как оно будет работать на Mono.

Предложения приветствуются!

1 Ответ

1 голос
/ 22 февраля 2011

Вы можете попробовать PDFBox. Я полагаю, что есть возможность встроить исходный код в .NET-библиотеки в сценарии сборки пакета загрузки @ http://pdfbox.apache.org/download.html.. Для создания PDF-файла используется IKVM, реализация языка Java для .NET Framework и Mono. библиотека для .NET Framework.

Вы можете использовать PDFBox, чтобы преобразовать PDF в текст и получить координаты x / y. Пример был сделан на Java @ https://github.com/apache/pdfbox/blob/1.1.x/pdfbox/src/main/java/org/apache/pdfbox/examples/util/PrintTextLocations.java. Возможно, это можно сделать в версии .NET. Однако я не уверен, что потеря форматирования при разборе pdf может привести к появлению некоторых неточных координат.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...