У меня есть вопрос о некоторой терминологии, когда речь идет о программном обеспечении для оптического распознавания символов, в частности о механизме распознавания текста Tesseract.
Я читаю статью о механизме распознавания текста Tesseract, и в ней часто упоминается то, что называется * 1003. * и я не совсем уверен, что это значит. Я предполагаю, что высота - это пространство, которое занимает строка текста, но это не имеет смысла в контексте статьи, которую я читаю.
Это предложение из статьи, в которой используется эта формулировка:
Капли организованы в текстовые строки, а линии и регионы анализируются на фиксированный или пропорциональный текст.
Я искал в Интернете какое-то определение этого, но большинство статьи на OCR просто используют его без объяснения причин. Я предполагаю, что это означает, что это довольно простой / общий термин.
Если кому-то все равно, статья, которую я читаю, называется «Обзор механизма распознавания текста Тессеракта», написанной Рэем Смитом.