Мне нужно проанализировать PDF-файл с кодом C # и извлечь из него каждое слово, а также местоположение этого слова в документе. Я не могу использовать взаимодействие, так как оно будет работать на Mono.
Предложения приветствуются!
Вы можете попробовать PDFBox. Я полагаю, что есть возможность встроить исходный код в .NET-библиотеки в сценарии сборки пакета загрузки @ http://pdfbox.apache.org/download.html.. Для создания PDF-файла используется IKVM, реализация языка Java для .NET Framework и Mono. библиотека для .NET Framework.
Вы можете использовать PDFBox, чтобы преобразовать PDF в текст и получить координаты x / y. Пример был сделан на Java @ https://github.com/apache/pdfbox/blob/1.1.x/pdfbox/src/main/java/org/apache/pdfbox/examples/util/PrintTextLocations.java. Возможно, это можно сделать в версии .NET. Однако я не уверен, что потеря форматирования при разборе pdf может привести к появлению некоторых неточных координат.