Вот основная проблема: у меня есть около 10000 слов документов, которые содержат блоки данных.Каждый блок пронумерован, а также имеет сопровождающее изображение.Мне нужно как-то сохранить эти отдельные блоки в БД в виде изображений (текст был бы хорош, но прочитайте примечание ниже), без нумерации.
Я могу пройти и заставить машинистки отмечать начало и конец блоковиспользуя ### QUESTIONSTART ###, ### QUESTIONEND ### или что-либо еще. Я пытаюсь взять этот документ, преобразовать его в большое изображение, найти эти теги, извлечь часть между тегами в виде изображения и затем перейти к следующему блоку.
Я смотрел на некоторые API и думаю, что определенно смогу обрезать изображения, когда выясню, как получить координаты каждого маркера начала / конца.Какие-либо предложения?Я не хотел бы писать попиксельное совпадение, которое должно идти O (нет блоков * n ^ 2)
ПРИМЕЧАНИЕ. Эти блоки содержат сложные уравнения / математические типы, следовательно, изображения.У меня нет $$, чтобы обучить 1000 машинисток в TeX и перепечатать всю сделку.OCR пока не обрезает.