Tesseract. NET SDK портит некоторые числа - PullRequest
0 голосов
/ 14 июля 2020

Я пытаюсь установить Tesseract. NET SDK анализирует изображение сетки повторов Fortnite. Он выполняет довольно хорошую работу, но при последнем счете elim он дал A вместо 4, что является странным, потому что он получил 4 elims в строке выше правильно. Это можно было бы обойти, так как я получаю 4, может выглядеть как пятерка, чтобы я мог проверить и переключиться. Однако главное - это то, что 6-е место заняли sh как 3-е место, что является большим препятствием для шоу. Я совершенно новичок в Tesseract, поэтому мне интересно, могу ли я что-нибудь сделать, чтобы повысить уверенность в таком конкретном примере c, поскольку все изображения будут выглядеть так. Идея состоит в том, что я использую значения размещения и исключения для очков в турнире, подсчет которых я хотел бы автоматизировать.

 using (var api = OcrApi.Create())
            {
                api.Init(@"C:\Users\MyUsername\source\repos\FnTourneyReader\FnTourneyReader", "eng");
                string plainText = api.GetTextFromImage(@"C:\Users\MyUsername\source\repos\FnTourneyReader\FnTourneyReader\Content\TourneyTest.png");

                var matches = plainText.Split(new[] { "\n" }, StringSplitOptions.None).Where(x => !string.IsNullOrEmpty(x));

                foreach(var match in matches)
                {
                    var details = match.Split(' ');

                    if (details[0] == "DATE")
                        continue;

                    var placement = details[4].Split('/')[0];
                    var elims = details[5];
                }
            }

Текст выглядит примерно так:

"ДАТА ДЛИНА ФИНИ SH УСТРАНЕНИЯ \ n7 / 20/20, 23:53 22:21 4/99 2 \ n7 / 20 ноября, 23:35 19:37 7/93 1 \ n7 / 20/20, 23:03 23 : 10 1/99 2 \ n7 / 11/20, 22:43 22:12 3/95 4 \ n7 / 11/20, 12:40 23:14 1/98 A \ n \ n "

введите описание изображения здесь

...