Как извлечь разделы (несколько разделов на страницу, несколько страниц) текстового документа / pdf / image как отдельные изображения / текстовые документы / pdfs? - PullRequest
0 голосов
/ 30 июня 2010

Вот основная проблема: у меня есть около 10000 слов документов, которые содержат блоки данных.Каждый блок пронумерован, а также имеет сопровождающее изображение.Мне нужно как-то сохранить эти отдельные блоки в БД в виде изображений (текст был бы хорош, но прочитайте примечание ниже), без нумерации.

Я могу пройти и заставить машинистки отмечать начало и конец блоковиспользуя ### QUESTIONSTART ###, ### QUESTIONEND ### или что-либо еще. Я пытаюсь взять этот документ, преобразовать его в большое изображение, найти эти теги, извлечь часть между тегами в виде изображения и затем перейти к следующему блоку.

Я смотрел на некоторые API и думаю, что определенно смогу обрезать изображения, когда выясню, как получить координаты каждого маркера начала / конца.Какие-либо предложения?Я не хотел бы писать попиксельное совпадение, которое должно идти O (нет блоков * n ^ 2)

ПРИМЕЧАНИЕ. Эти блоки содержат сложные уравнения / математические типы, следовательно, изображения.У меня нет $$, чтобы обучить 1000 машинисток в TeX и перепечатать всю сделку.OCR пока не обрезает.

Ответы [ 2 ]

0 голосов
/ 30 июня 2010

Если у вас есть машинистки, добавляющие метки блоков в 10 000 документов, почему печатники не могут

  • Открыть документ Word
  • Скопировать изображение из документа Word
  • Вставить изображение в Paint
  • Сохранить изображение на их диске?

Вы можете придумать схему именования изображений, которая имеет смысл для вас и ваших машинисток.

Затем вы можете собрать образы с дисков с помощью программы и загрузить их в базу данных.

0 голосов
/ 30 июня 2010

Я не понимаю всех ваших вопросов, но, по моему мнению, Тика может вам помочь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...