Распознавание текста и чисел в Draw - используя Tesseract и Java - PullRequest
0 голосов
/ 19 октября 2018

У меня небольшой общий вопрос о распознавании рисунков (таблиц), потому что я хочу проанализировать эти изображения и извлечь данные.Я использую Java (но если вы предлагаете другое, это не проблема), и я попробовал Tesseract с библиотекой javacpp не так много удачи.

Пример используемого кода:

    BytePointer outText;

    TessBaseAPI api = new TessBaseAPI();
    // Initialize tesseract-ocr with English, without specifying tessdata path
    if (api.Init(null, "ita") != 0) {
        System.err.println("Could not initialize tesseract.");
        System.exit(1);
    }

    // Open input image with leptonica library
    PIX image = pixRead("image.jpg");
    api.SetImage(image);
    // Get OCR result
    outText = api.GetUTF8Text();
    System.out.println("OCR output:\n" + outText.getString());

Иззагруженное изображение Я получаю только имена:

1) Quintavalle Gianluca - 4.NC
1) Quintavalle Gianluca - 4.NC
Barelli Paolo - 4NC :

Я думаю, что проблема заключается в особой разметке, потому что изображение очень четкое, но мне нужно выяснить, какие результаты (60 61).

Я пробовал много разных дро, разных опций Тессеракта и режима страницы, но не смог получить необходимые данные.

img1

Моя последняя цель -чтобы получить из тиражей список матчей:

- winner1- loser1- result1 
- winner2- loser2- result2
etc

из тиражей, подобных этой: img2

Большое спасибо за помощь, он заисследовательский проект.

...