Я вижу, что в вашем коде есть два изображения.
Ниже в вашем блоке комментариев.Это хороший пример, аналогичный известному набору данных MNIST
для рукописного ввода.Особенностью этого класса данных является то, что нет сильных пикселей с шумом.
![enter image description here](https://i.stack.imgur.com/3pSc1.png)
Однако , другой, ниже, есть сильные пиксели с шумом всенад изображением, даже я думаю, на 99%.
![enter image description here](https://i.stack.imgur.com/magih.jpg)
Так что это два сценария.Производительность распознавания Azure Cognitive Service зависит от образца набора данных в модели обучения.Так что на самом деле оптическое распознавание в компьютерном зрении может просто обнаружить эти похожие изображения с помощью обученных образцов.
Правильный способ для второго изображения - сначала обнаружить достаточно малую область пикселей, содержащую текстовое содержимое, а затем вырезать его, чтобы сделатьокр зовет.Например, если номер лицензии обозначен на изображении автомобильной головки, требуется только часть изображения автомобильной таблички.