Есть ли способ извлечь текстовую информацию из файла postscript? (.ps .eps) - PullRequest
3 голосов
/ 08 февраля 2011

Я хочу извлечь текстовую информацию, содержащуюся в файле изображения postscript (подписи к меткам моей оси). Эти изображения были созданы с помощью pgplot. Я пробовал ps2ascii и ps2txt в Ubuntu, но они не дали никаких полезных результатов. Кто-нибудь знает другой метод?

Спасибо

1 Ответ

6 голосов
/ 08 февраля 2011

Вполне вероятно, что pgplot рисовал шрифты в тексте напрямую с помощью линий, а не с помощью текста. Тем более, что pgplot предназначен для вывода на огромное количество устройств, включая плоттеры, где вам придется это делать.

Edit:

Если у вас достаточно участков, чтобы их стоить усилие, чем это очень просто задача обработки изображений. Конвертировать каждый страница на что-то вроде TIFF, в моно Chrome Threshold изображение в двоичный файл, текст будет максимальным значением пикселя.

Используйте метод сопоставления с шаблоном. Если у вас есть ограниченный набор возможные метки тогда просто соответствуют весь ярлык, вы даже можете начать с шаблоном правильного размера и вращение. Затем просто отметьте каждый участок, содержащий метку [1-n], нет нужно прочитать фактический текст.

Если вы не знаю ярлык, то вы можете по-прежнему делать OCR довольно легко, просто извлечь область вокруг оси, поверните его по вертикали - и используйте Google OCR lib

бесплатно

Если у вас есть pgplot, вы можете даже создать обучающий набор для OCR или шаблон изображения прямо скорее чем собирать их с список изображений

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...