Как преобразовать PDF-файл в текстовый файл с помощью C # .net - PullRequest
1 голос
/ 10 марта 2010

В настоящее время я использую следующий код, и я использую некоторые файлы DLL из pdfbox

        FileInfo file = new FileInfo("c://aa.pdf");

        PDDocument doc = PDDocument.load(file.FullName);

        PDFTextStripper pdfStripper = new PDFTextStripper();
        string text = pdfStripper.getText (doc);
        richTextBox1.Text = qq;

Используя этот код, я могу получить текстовый файл, но не в правильном формате. Пожалуйста, дайте мне несколько идей

Ответы [ 2 ]

1 голос
/ 10 марта 2010

В блоге есть статья, объясняющая проблемы с извлечением текста PDF в целом, на http://pdf.jpedal.org/java-pdf-blog/bid/12670/PDF-text

1 голос
/ 10 марта 2010

Извлечение текста из файла PDF совсем не тривиально.

Цитировать из учебника iTextSharp.

"Формат PDF - это просто холст, где текст и графика размещаются без любая структура информации. В качестве таких нет никаких 'iText-объектов' в PDF файл На каждой странице будет вероятно, будет ряд «строк», но Вы не можете восстановить фразу или абзац с использованием этих строк. Там вероятно, несколько нарисованных линий, но вы не можете получить объект Table основываясь на этих линиях. Короче: Разбор содержимого PDF-файла НЕ ВОЗМОЖНО с iText. "

Есть несколько коммерческих приложений, которые утверждают, что могут это сделать. Будьте бдительны.

Существует также бесплатная библиотека программного обеспечения под названием Poppler http://poppler.freedesktop.org/, которая используется программами просмотра PDF в GNOME и KDE. У него есть функция pdftotext (), но у меня нет опыта работы с ней. Это может быть ваш лучший бесплатный вариант.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...