Я читал документы OCR, такие как этот https://arxiv.org/pdf/1704.08628.pdf, и мне трудно выяснить, как на самом деле генерируются эти наборы данных.
В связанной статье они используют регрессор дляпредсказывать начальную точку (точку) и высоту строки текста.Затем, основываясь на этой начальной точке и высоте, вторая сеть выполняет OCR и обнаружение конца линии.Я понимаю, что это очень упрощенное объяснение, но из этого следует, что их набор данных состоит (по крайней мере частично) из полностраничных текстовых «изображений», помеченных тем, где начинается каждая строка, а затем транскрипции текста в данной строке.В качестве альтернативы они могли бы просто использовать нижнюю левую точку ограничивающих рамок в качестве начальной точки и высоту рамки в качестве высоты слова (избегая необходимости повторного аннотирования, если данные были предварительно подготовлены с использованием ограничивающих рамок).
Так как же на самом деле создается такой набор данных?Глядя на другие наборы данных, кажется, что есть какое-то программное обеспечение, которое может создавать XML-файлы, содержащие основные истины, относящиеся к каждому изображению, может кто-то указать мне правильное направление?Я гуглял и находил множество инструментов для аннотирования текста с помощью сентиментальности и т. Д. И других инструментов для аннотирования изображений для сегментации (для чего-то вроде сети YOLO), но я выхожу пустым для создания чего-то похожего на набор данных Мурдура.в связанном документе.
Спасибо