Я обнаружил так много моделей для обнаружения текстов, но я не могу реализовать их, потому что мой набор данных является пользовательским, и я не могу использовать его с любыми найденными моделями. Все модели соответствуют формату PASCAL VO C или COCO, и я не могу использовать ни одну из них. В моем наборе данных есть папка Train с папкой с изображениями, в которой также есть разные папки, например. 1, 2, 3 ... 25 и каждая папка содержит 1000 изображений с именами 1,2 .... и так далее. Папка с комментариями находится рядом с папкой с изображениями и имеет тот же шаблон, но вместо файлов .jpg она имеет файлы с комментариями в формате .txt. Таким образом, изображения и аннотации идентичны, но аннотация содержит все необходимые данные об изображениях. Я не могу конвертировать этот набор данных в файлы tfrecords или xml или csv для использования с любой моделью. Может ли кто-нибудь помочь мне с тем, как подготовить мой набор данных? Или вот мой формат файла аннотации, у меня возникают трудности при создании tfrecords с таким количеством таких файлов, или я могу использовать его напрямую с моделью?
Я просто хочу узнать, как начать сборку моя модель обнаружения и распознавания текста с использованием этих данных? Может ли кто-нибудь порекомендовать мне какую-либо модель, которую я могу использовать с такими данными? Я не опытный программист.