У меня небольшой общий вопрос о распознавании рисунков (таблиц), потому что я хочу проанализировать эти изображения и извлечь данные.Я использую Java (но если вы предлагаете другое, это не проблема), и я попробовал Tesseract с библиотекой javacpp не так много удачи.
Пример используемого кода:
BytePointer outText;
TessBaseAPI api = new TessBaseAPI();
// Initialize tesseract-ocr with English, without specifying tessdata path
if (api.Init(null, "ita") != 0) {
System.err.println("Could not initialize tesseract.");
System.exit(1);
}
// Open input image with leptonica library
PIX image = pixRead("image.jpg");
api.SetImage(image);
// Get OCR result
outText = api.GetUTF8Text();
System.out.println("OCR output:\n" + outText.getString());
Иззагруженное изображение Я получаю только имена:
1) Quintavalle Gianluca - 4.NC
1) Quintavalle Gianluca - 4.NC
Barelli Paolo - 4NC :
Я думаю, что проблема заключается в особой разметке, потому что изображение очень четкое, но мне нужно выяснить, какие результаты (60 61).
Я пробовал много разных дро, разных опций Тессеракта и режима страницы, но не смог получить необходимые данные.
Моя последняя цель -чтобы получить из тиражей список матчей:
- winner1- loser1- result1
- winner2- loser2- result2
etc
из тиражей, подобных этой:
Большое спасибо за помощь, он заисследовательский проект.