Извлечь текстовую форму в формате PDF с помощью Foxit SDK - PullRequest
0 голосов
/ 27 января 2012

Я использую Foxit SDK для извлечения текста из документа PDF.

Все хорошо, но когда я извлекаю pdf на других языках, а не на английском, я не получаю правильный вывод.

Я также использовал PDFBox в Java, но это дает мне худший результат, вывод из Foxit SDK лучше, чем PDFBox.

Существуют ли другие библиотеки, которые могут решить эту проблему? Или есть другое решение.

Ответы [ 3 ]

0 голосов
/ 27 января 2012

Возможно, вы захотите попробовать пробную версию Quick PDF Library, чтобы увидеть, как она работает с вашими документами.http://www.quickpdflibrary.com

QP.GetPageText (7) или GetPageText (8) возвращает довольно хорошие результаты для большинства файлов PDF.

Эндрю.

Отказ от ответственности: я занимаюсь некоторой консультационной работойдля быстрой библиотеки PDF.

0 голосов
/ 16 апреля 2013

Если вы работаете в Windows, вы можете использовать IFilter, который предоставляет Adobe.Я, я использовал IFilter Adobe предоставляет с Adobe Reader 8. Вот ссылка на точный пример, который я использовал

http://www.codeproject.com/Articles/13391/Using-IFilter-in-C

Производительность была в порядке (я думаю. У меня нетя использовал много других методов).Занимает около 15 секунд для PDF на 400 страниц.

0 голосов
/ 27 января 2012

Лично, если вы хотите, чтобы все было сделано правильно, вы должны заплатить за это.ComponentOne имеет PDFViewer для WPF.Не уверен, с какой структурой вы работаете, поскольку в вашем теге отсутствует один.

ComponentOne PDF Viewer для WPF

...