Question

Вот основная проблема: у меня есть около 10000 слов документов, которые содержат блоки данных.Каждый блок пронумерован, а также имеет сопровождающее изображение.Мне нужно как-то сохранить эти отдельные блоки в БД в виде изображений (текст был бы хорош, но прочитайте примечание ниже), без нумерации.

Я могу пройти и заставить машинистки отмечать начало и конец блоковиспользуя ### QUESTIONSTART ###, ### QUESTIONEND ### или что-либо еще. Я пытаюсь взять этот документ, преобразовать его в большое изображение, найти эти теги, извлечь часть между тегами в виде изображения и затем перейти к следующему блоку.

Я смотрел на некоторые API и думаю, что определенно смогу обрезать изображения, когда выясню, как получить координаты каждого маркера начала / конца.Какие-либо предложения?Я не хотел бы писать попиксельное совпадение, которое должно идти O (нет блоков * n ^ 2)

ПРИМЕЧАНИЕ. Эти блоки содержат сложные уравнения / математические типы, следовательно, изображения.У меня нет $$, чтобы обучить 1000 машинисток в TeX и перепечатать всю сделку.OCR пока не обрезает.

Gilbert Le Blanc · Answer 1 · 30 июня 2010

Если у вас есть машинистки, добавляющие метки блоков в 10 000 документов, почему печатники не могут

Открыть документ Word
Скопировать изображение из документа Word
Вставить изображение в Paint
Сохранить изображение на их диске?

Вы можете придумать схему именования изображений, которая имеет смысл для вас и ваших машинисток.

Затем вы можете собрать образы с дисков с помощью программы и загрузить их в базу данных.

Istao · Answer 2 · 30 июня 2010

Я не понимаю всех ваших вопросов, но, по моему мнению, Тика может вам помочь.

Как извлечь разделы (несколько разделов на страницу, несколько страниц) текстового документа / pdf / image как отдельные изображения / текстовые документы / pdfs?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как извлечь разделы (несколько разделов на страницу, несколько страниц) текстового документа / pdf / image как отдельные изображения / текстовые документы / pdfs?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов