Я хочу преобразовать свой pdf или файл изображения в текст и сохранить информацию из pdf в sqlserver, используя IornOcr в c #.
Я получил текстовый файл. Но моя проблема в том, что мой pdf файл содержит арабский язык, который также преобразованна английский, но это не точно.поэтому я не могу сохранить детали в базу данных.
var Ocr = new AdvancedOcr()
{
CleanBackgroundNoise = false,
EnhanceContrast = true,
EnhanceResolution = false,
Language = IronOcr.Languages.English.OcrLanguagePack,
Strategy = IronOcr.AdvancedOcr.OcrStrategy.Advanced,
ColorSpace = AdvancedOcr.OcrColorSpace.Color,
DetectWhiteTextOnDarkBackgrounds = true,
InputImageType = AdvancedOcr.InputTypes.AutoDetect,
RotateAndStraighten = true,
ReadBarCodes = true,
ColorDepth = 4
};
var results = Ocr.Readpdf(@"C:\image\IMG1.pdf");
var val = results.Text.Split('\n', '\r');
Я, кроме текстового файла, содержит только английский. Но фактический файл содержит арабский язык. Я не хочу конвертировать арабские слова из файла PDF,Пожалуйста, помогите мне ..