Question

У меня есть PDF документы со сканера. Этот PDF-файл содержит формы, заполненные и подписанные сотрудниками для ежедневной работы. Я хочу разместить штрих-код или стандартную область для текста OCR на каждом типе формы, чтобы пакетное сканирование можно было программно разбить на отдельные PDF-документы на основе типа формы.

Я хотел бы сделать это в Microsoft .net 2.0

Я могу приобрести требуемые Adobe или другие пространства имен / dll, необходимые для выполнения задачи, если нет доступных пространств имен с открытым исходным кодом / dll.

Brian Genisio · Answer 1 · 03 декабря 2008

Не является бесплатным или открытым исходным кодом, но вы также можете посмотреть ABCPdf от webSuperGoo как другую альтернативу Adobe.

joshperry · Answer 2 · 03 декабря 2008

Из заголовка вашего вопроса я предполагаю, что вам просто нужно разбить PDF-файлы на части и что они уже OCR-файлы. Существует несколько библиотек .NET PDF с открытым исходным кодом. Я успешно использовал PDFSharp в своем собственном проекте.

Вот краткий фрагмент, показывающий, как вырезать каждую страницу из документа PDF с помощью PDFSharp:

string filePath = @"c:\file.pdf";

using (PdfDocument ipdf = PdfReader.Open(filePath, PdfDocumentOpenMode.ReadOnly))
{
    int i = 1;
    foreach (PdfPage page in ipdf.Pages)
    {
        using (PdfDocument opdf = new PdfDocument())
        {
            opdf.Version = ipdf.Version;
            opdf.AddPage(page);

            opdf.Save("page " + i++ + ".pdf");
        }
    }
}

Предполагая также, что для группировки необходим доступ к тексту в документе, вы можете использовать свойство PdfPage.Contents.

StingyJack · Answer 3 · 03 декабря 2008

iTextSharp поможет вам разделить, собрать и применить штрих-коды к PDF-файлам на языках .NET. Я не думаю, что он может OCR документа, но я не смотрел (я использовал Abby Fine Reader Engine).

Will Rickards · Answer 4 · 03 декабря 2008

Вы можете изучить библиотеку iTextSharp, которая может разбивать PDF-файлы. Но это не очень хорошо для чтения реальных PDF-файлов. Поэтому я понятия не имею, как он узнает, где их разделить.

Есть компании, которые уже делают это для вас. Вы можете исследовать компанию kwiktag.

Drejc · Answer 5 · 05 ноября 2010

Вы можете использовать несколько, попробуйте следующие бесплатные инструменты:

almog.ori · Answer 6 · 05 ноября 2010

ознакомьтесь с оболочкой Tesseract .NET (v 2.04.0) с одноименным движком c ++ ocr, разработанным компанией hp в конце 90-х, он получил награды за свою изобретательность

Программно разбить PDF-файл, созданный сканером, на отдельные PDF-документы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Программно разбить PDF-файл, созданный сканером, на отдельные PDF-документы

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 6 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов