Программно разбить PDF-файл, созданный сканером, на отдельные PDF-документы - PullRequest
2 голосов
/ 03 декабря 2008

У меня есть PDF документы со сканера. Этот PDF-файл содержит формы, заполненные и подписанные сотрудниками для ежедневной работы. Я хочу разместить штрих-код или стандартную область для текста OCR на каждом типе формы, чтобы пакетное сканирование можно было программно разбить на отдельные PDF-документы на основе типа формы.

Я хотел бы сделать это в Microsoft .net 2.0

Я могу приобрести требуемые Adobe или другие пространства имен / dll, необходимые для выполнения задачи, если нет доступных пространств имен с открытым исходным кодом / dll.

Ответы [ 6 ]

2 голосов
/ 03 декабря 2008

Не является бесплатным или открытым исходным кодом, но вы также можете посмотреть ABCPdf от webSuperGoo как другую альтернативу Adobe.

1 голос
/ 03 декабря 2008

Из заголовка вашего вопроса я предполагаю, что вам просто нужно разбить PDF-файлы на части и что они уже OCR-файлы. Существует несколько библиотек .NET PDF с открытым исходным кодом. Я успешно использовал PDFSharp в своем собственном проекте.

Вот краткий фрагмент, показывающий, как вырезать каждую страницу из документа PDF с помощью PDFSharp:

string filePath = @"c:\file.pdf";

using (PdfDocument ipdf = PdfReader.Open(filePath, PdfDocumentOpenMode.ReadOnly))
{
    int i = 1;
    foreach (PdfPage page in ipdf.Pages)
    {
        using (PdfDocument opdf = new PdfDocument())
        {
            opdf.Version = ipdf.Version;
            opdf.AddPage(page);

            opdf.Save("page " + i++ + ".pdf");
        }
    }
}

Предполагая также, что для группировки необходим доступ к тексту в документе, вы можете использовать свойство PdfPage.Contents.

1 голос
/ 03 декабря 2008

iTextSharp поможет вам разделить, собрать и применить штрих-коды к PDF-файлам на языках .NET. Я не думаю, что он может OCR документа, но я не смотрел (я использовал Abby Fine Reader Engine).

1 голос
/ 03 декабря 2008

Вы можете изучить библиотеку iTextSharp, которая может разбивать PDF-файлы. Но это не очень хорошо для чтения реальных PDF-файлов. Поэтому я понятия не имею, как он узнает, где их разделить.

Есть компании, которые уже делают это для вас. Вы можете исследовать компанию kwiktag.

0 голосов
/ 05 ноября 2010

Вы можете использовать несколько, попробуйте следующие бесплатные инструменты:

0 голосов
/ 05 ноября 2010

ознакомьтесь с оболочкой Tesseract .NET (v 2.04.0) с одноименным движком c ++ ocr, разработанным компанией hp в конце 90-х, он получил награды за свою изобретательность

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...