Обнаружение неизвестного символа в строке - PullRequest
0 голосов
/ 10 февраля 2019

Я использую библиотеку Tess Two для Android для чтения текста из растрового изображения.Я получаю следующее (то, что кажется) "─", чей альтернативный код ALT196.

Я использую регулярное выражение для поиска плохих символов.Этот неизвестный символ представляет знак минус в растровом изображении.Итак, мне действительно нужно, чтобы он остался.

Как видно из приведенного ниже кода, мое регулярное выражение, которое очищает плохие символы, просит сохранить символ ALT196 и знак минус.

Я действительно хочу опознать этого персонажа.Одна очень важная подсказка заключается в том, что я использую обученные файлы данных на английском и Equ из библиотеки Tess Two.

Вот мой код, который удаляет плохие символы

        s2 = s2.replaceAll("[^0-9,\\-,+,*,√,\\(,\\),\\[,\\],²,³,÷,\\.,\\|,\\/,\\,,a-z,A-Z,ƒ,×,~,≈,=,\\%,±,$,<,>,≤,≥,∞,Σ,π,≡,ⁿ,¹,°,∩,µ,⌠,⌡,:,{,},\\?,\\─,_,·]","");

обратите внимание, что s2является возвращенной строкой после "OCR"Посмотрите на картинку, которую я разместил.Последняя строка "s2" должна содержать этот неизвестный символ. enter image description here

...