Я пытался сделать поиск по регулярному выражению Google OCR.Я завершил его и работает довольно хорошо, когда документ содержит только английские символы.Но происходит сбой, когда есть текст на других языках.
Это происходит потому, что у меня есть только английские символы в компоненте google vision word следующим образом.
VISION_API_WORD_COUNTERS = "([a-zA-Z0-9]+)|([^a-zA-Z0-9 ])";
VISION_API_WORD_COMPONENTS = "[a-zA-Z0-9]";
VISION_API_NOT_WORD_COMPONENTS = "[^a-zA-Z0-9]";
Поскольку я не могу включить символыиз всех языков, я думаю включить обратное выше.Что-то вроде
VISION_API_WORD_COMPONENTS = "[^*ALL THE SPECIAL CHARACTERS WHICH ARE IDENTIFIED AS WORD BY GOOGLE VISION*]"
, например [^!@#$%^&*()_+=]
.
Так где же я могу найти ВСЕ ОСОБЫЕ ХАРАКТЕРИСТИКИ, КОТОРЫЕ ОПРЕДЕЛЕНЫ КАК ОТДЕЛЬНОЕ СЛОВО В VISION GOOGLE ?
Метод проб и ошибок, продолжайте добавлять специальные символы, которые я нахожу, это один из вариантов. Но это будет мой последний вариант.