Преобразование PDF в текст - PullRequest
       16

Преобразование PDF в текст

0 голосов
/ 14 сентября 2011

Мне нужно создать приложение на C # или C ++ (MFC), которое конвертирует pdf файлы в txt. Мне нужно не только конвертировать, но и удалять заголовки, нижние колонтитулы, некоторые символы мусора на левом поле и т. Д. Таким образом, приложение shold позволяет пользователю устанавливать поля страницы, чтобы обрезать ненужное. На самом деле я уже создал такое приложение с использованием xpdf, но у меня возникают некоторые проблемы, когда я пытаюсь вставить пользовательские теги в извлеченный текст, чтобы сохранить курсив и жирный шрифт. Может быть, кто-нибудь может предложить что-то полезное?

Спасибо.

Ответы [ 2 ]

1 голос
/ 14 сентября 2011

Существуют условно-бесплатные и бесплатные утилиты. Попробуйте получить их исходный код или, возможно, использовать их такими, какие они есть.

Общедоступную версию спецификации PDF можно найти здесь: спецификация Adobe PDF

PDF Shareware читателей можно найти: PDF Reader исходный код @ SourceForge

0 голосов
/ 14 февраля 2015

Пожалуйста, посмотрите на Podofo .Это LGPL-лицензированная библиотека, которая имеет много мощных функций редактирования.Один из примеров, txt2pdf IIRC, является хорошим началом: он показывает базовое извлечение текста;Оттуда вы можете проверить, достаточно ли предварительной (в pdf движке) или постовой (в тексте) фильтрации для ваших целей.Я не смог использовать Pdf Hummus , но он должен иметь и эти возможности, хотя и менее простой.

...