Как получить данные из PDF или изображения и вставить значение в базу данных в C # с помощью IronOcr - PullRequest
0 голосов
/ 24 сентября 2019

Я хочу преобразовать свой pdf или файл изображения в текст и сохранить информацию из pdf в sqlserver, используя IornOcr в c #.

Я получил текстовый файл. Но моя проблема в том, что мой pdf файл содержит арабский язык, который также преобразованна английский, но это не точно.поэтому я не могу сохранить детали в базу данных.

 var Ocr = new AdvancedOcr()
        {
            CleanBackgroundNoise = false,
            EnhanceContrast = true,
            EnhanceResolution = false,
            Language = IronOcr.Languages.English.OcrLanguagePack,
            Strategy = IronOcr.AdvancedOcr.OcrStrategy.Advanced,
            ColorSpace = AdvancedOcr.OcrColorSpace.Color,
            DetectWhiteTextOnDarkBackgrounds = true,
            InputImageType = AdvancedOcr.InputTypes.AutoDetect,
            RotateAndStraighten = true,
            ReadBarCodes = true,
            ColorDepth = 4
        };

          var results = Ocr.Readpdf(@"C:\image\IMG1.pdf");
            var val = results.Text.Split('\n', '\r');

Я, кроме текстового файла, содержит только английский. Но фактический файл содержит арабский язык. Я не хочу конвертировать арабские слова из файла PDF,Пожалуйста, помогите мне ..

...