Создание поля обнаружения текста в python для обнаружения текста сцены - PullRequest
0 голосов
/ 31 марта 2020

Я пытаюсь сделать прямоугольник angular вокруг текста в изображениях сцены в python (аналогично EAST). Я хочу знать, какими должны быть входные и выходные параметры моей модели машинного обучения и как выбрать архитектуру машинного обучения.

Я предполагаю, что на входе должно быть изображение, содержащее текст, а вывод - 4-D Вектор, состоящий из координат x и y верхнего левого угла прямоугольника angular прямоугольника, ширины и высоты прямоугольника для каждого экземпляра слова в изображении. Это правильно?

Кроме того, как выбрать архитектуру машинного обучения? Использую ли я модель Re sNet с трансферным обучением или создаю свою собственную модель с несколькими слоями? Как я могу решить?

Набор данных, который я использую - http://www.iapr-tc11.org/mediawiki/index.php/ICDAR_2003_Robust_Reading_Competitions

Связанные исследования - https://www.comp.nus.edu.sg/~cs4243/projects/text_natural_scene.pdf (я не мог понять это хоть)

...