Question

Я хочу использовать метод tesseract Process, чтобы получить текст из нескольких изображений и сохранить его в текстовом файле .txt, включая изображения без текста, который следует пропустить.Вот мой код:

Bitmap img = new Bitmap(@"C:\Tesseract\imagem1.png");
var ocr = new TesseractEngine(@"C:\Tesseract\tesseract-ocr\tessdata", "por");
var page = ocr.Process(img, Tesseract.PageSegMode.AutoOsd);
string txtPath = @"C:\Tesseract\out.txt";

using (FileStream fs = File.Create(txtPath))
{
    Byte[] info = new UTF8Encoding(true).GetBytes(page.GetText());
    fs.Write(info, 0, info.Length);
}

Когда я запускаю код с изображением без текста, Тессеракт выводит на консоль «Слишком мало символов. Пропуск этой страницы», и это здорово, но код по-прежнемугенерирует .txt файл с пустыми строками.Есть ли какие-либо свойства или методы, которые я могу использовать в своей переменной страницы, чтобы узнать, не было ли на обработанном изображении текста?Или, может быть, что-то еще полностью.

Пропуск изображений без текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Пропуск изображений без текста

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы