Идеи для преобразования оцифрованного текста в отсканированные изображения? - PullRequest
0 голосов
/ 21 февраля 2011

Привет Переливы,

У меня есть отсканированные изображения и их оцифрованный текст, но мне нужно каким-то образом сопоставить каждый цифровой токен в тексте с соответствующей частью изображения. Я бы хотел, чтобы все было так гранулировано, чтобы токены были символами, но если это слишком сложно, то слова в порядке. Какой, на ваш взгляд, лучший формат файла для размещения текста на изображениях, чтобы части изображения можно было выбирать, а сопоставленные маркеры были скрыты, но их можно было скопировать? HTML? PDF? другие? Автоматизированные и полуавтоматические способы приветствуются, поскольку они практичны для огромного количества изображений и текста. Я думаю, что самое сложное - как распознать / идентифицировать части изображения.

Привет

...