Question

Мне нужно проанализировать PDF-файл с кодом C # и извлечь из него каждое слово, а также местоположение этого слова в документе. Я не могу использовать взаимодействие, так как оно будет работать на Mono.

Предложения приветствуются!

Luke Hutton · Answer 1 · 22 февраля 2011

Вы можете попробовать PDFBox. Я полагаю, что есть возможность встроить исходный код в .NET-библиотеки в сценарии сборки пакета загрузки @ http://pdfbox.apache.org/download.html.. Для создания PDF-файла используется IKVM, реализация языка Java для .NET Framework и Mono. библиотека для .NET Framework.

Вы можете использовать PDFBox, чтобы преобразовать PDF в текст и получить координаты x / y. Пример был сделан на Java @ https://github.com/apache/pdfbox/blob/1.1.x/pdfbox/src/main/java/org/apache/pdfbox/examples/util/PrintTextLocations.java. Возможно, это можно сделать в версии .NET. Однако я не уверен, что потеря форматирования при разборе pdf может привести к появлению некоторых неточных координат.

Получить все слова в PDF + их местоположение без взаимодействия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Получить все слова в PDF + их местоположение без взаимодействия

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов