Специальные символы, которые идентифицируются как отдельные слова в Google Vision OCR? - PullRequest
0 голосов
/ 16 октября 2018

Я пытался сделать поиск по регулярному выражению Google OCR.Я завершил его и работает довольно хорошо, когда документ содержит только английские символы.Но происходит сбой, когда есть текст на других языках.

Это происходит потому, что у меня есть только английские символы в компоненте google vision word следующим образом.

VISION_API_WORD_COUNTERS = "([a-zA-Z0-9]+)|([^a-zA-Z0-9 ])";
VISION_API_WORD_COMPONENTS = "[a-zA-Z0-9]";
VISION_API_NOT_WORD_COMPONENTS = "[^a-zA-Z0-9]";

Поскольку я не могу включить символыиз всех языков, я думаю включить обратное выше.Что-то вроде

VISION_API_WORD_COMPONENTS = "[^*ALL THE SPECIAL CHARACTERS WHICH ARE IDENTIFIED AS WORD BY GOOGLE VISION*]"

, например [^!@#$%^&*()_+=].

Так где же я могу найти ВСЕ ОСОБЫЕ ХАРАКТЕРИСТИКИ, КОТОРЫЕ ОПРЕДЕЛЕНЫ КАК ОТДЕЛЬНОЕ СЛОВО В VISION GOOGLE ?

Метод проб и ошибок, продолжайте добавлять специальные символы, которые я нахожу, это один из вариантов. Но это будет мой последний вариант.

...