Я использую библиотеку Tess Two для Android для чтения текста из растрового изображения.Я получаю следующее (то, что кажется) "─", чей альтернативный код ALT196.
Я использую регулярное выражение для поиска плохих символов.Этот неизвестный символ представляет знак минус в растровом изображении.Итак, мне действительно нужно, чтобы он остался.
Как видно из приведенного ниже кода, мое регулярное выражение, которое очищает плохие символы, просит сохранить символ ALT196 и знак минус.
Я действительно хочу опознать этого персонажа.Одна очень важная подсказка заключается в том, что я использую обученные файлы данных на английском и Equ из библиотеки Tess Two.
Вот мой код, который удаляет плохие символы
s2 = s2.replaceAll("[^0-9,\\-,+,*,√,\\(,\\),\\[,\\],²,³,÷,\\.,\\|,\\/,\\,,a-z,A-Z,ƒ,×,~,≈,=,\\%,±,$,<,>,≤,≥,∞,Σ,π,≡,ⁿ,¹,°,∩,µ,⌠,⌡,:,{,},\\?,\\─,_,·]","");
обратите внимание, что s2является возвращенной строкой после "OCR"Посмотрите на картинку, которую я разместил.Последняя строка "s2" должна содержать этот неизвестный символ.