Я работаю над проектом по управлению P C исключительно с помощью голосового управления и жестов (через веб-камеру). Итак, с помощью голосового управления я открываю приложение (например, YouTube). Теперь, не набирая ничего на панели поиска, я хочу сделать это с помощью голосового набора (даже не касаясь клавиатуры), например, если я скажу «искать видео в воде», курсор автоматически найдет меня и выдаст результат. , По сути, я хочу найти текстовое поле на экране приложения, используя обработку изображений. Должно быть несколько предопределенных ключевых слов, таких как поиск (для поиска), удаление (для удаления всего, что было напечатано с ошибкой) Go Назад (к go назад к предыдущему окну), Выход (для выхода из приложения).
Можно ли это сделать с помощью openCV Python? Большое спасибо заранее!