Я хочу использовать метод tesseract Process
, чтобы получить текст из нескольких изображений и сохранить его в текстовом файле .txt, включая изображения без текста, который следует пропустить.Вот мой код:
Bitmap img = new Bitmap(@"C:\Tesseract\imagem1.png");
var ocr = new TesseractEngine(@"C:\Tesseract\tesseract-ocr\tessdata", "por");
var page = ocr.Process(img, Tesseract.PageSegMode.AutoOsd);
string txtPath = @"C:\Tesseract\out.txt";
using (FileStream fs = File.Create(txtPath))
{
Byte[] info = new UTF8Encoding(true).GetBytes(page.GetText());
fs.Write(info, 0, info.Length);
}
Когда я запускаю код с изображением без текста, Тессеракт выводит на консоль «Слишком мало символов. Пропуск этой страницы», и это здорово, но код по-прежнемугенерирует .txt файл с пустыми строками.Есть ли какие-либо свойства или методы, которые я могу использовать в своей переменной страницы, чтобы узнать, не было ли на обработанном изображении текста?Или, может быть, что-то еще полностью.