Почему Google Vision распознает «и» локали для изображений, содержащих только цифры в тексте? - PullRequest
0 голосов
/ 08 октября 2018

Я предоставил изображение для API распознавания Google Cloud Vision для аннотирования.На изображении был только номер телефона.

Google Cloud Vision сказала, что языком текста является «und».Это значит неопределенное?Я не нахожу никакой информации в документации.

1 Ответ

0 голосов
/ 08 октября 2018

Действительно, «und» не входит в код для языков в документации .А поскольку изображение не содержит только цифр, оно не будет определять язык.

Но в документации также говорится, что Vision API использует идентификаторы BCP-47, а «und» указан как * 1005.* Неспецифический языковой тег .Вы также можете найти уточнение о том, что «Специальное значение« und »(Не определено) имеет« Область действия »« Специальное »».Специально определяется как:

'special' - обозначает специальный код языка.Это подтэги, используемые для идентификации языковых атрибутов, не связанных конкретно с конкретным языком.К ним относятся коды, когда язык не определен или для нелингвистического контента.

Следовательно, «подтег основного языка« und »(неопределенный) идентифицирует лингвистический контент, язык которого не определен».

...