Как я могу наложить текст на изображение TIFF, создавая что-то вроде PDF с возможностью поиска? - PullRequest
0 голосов
/ 16 июня 2011

Я хотел бы иметь приложение, в котором пользователь просматривает изображение документа в формате TIFF.

Если на странице появляются слова «foo» и «bar». И выбор сделан на изображении, которое содержит только «foo», тогда я хотел бы выбрать только слово «foo».

Существует ли какой-либо формат, позволяющий хранить как местоположение текста, так и текст изображения?

1 Ответ

2 голосов
/ 17 июня 2011

Поскольку вы знаете о PDF с возможностью поиска, и он прекрасно реализует то, что вы предлагаете, я предполагаю, что есть некоторая причина, по которой вы не можете его использовать.Если нет, вы должны использовать PDF - формат поддерживает смешанный контент и наложение его.Все пользователи, которые, вероятно, будут иметь ваши пользователи, поймут, что делать с текстом под изображением.

Формат TIFF не поддерживает это напрямую, но если вы создаете средство просмотра, и ему нужно толькоработать там, тогда вы можете попытаться сохранить текст и позиции в пользовательском теге.

Тогда ваш зритель должен будет прочитать этот тег, интерпретировать позиции мыши и посмотреть текст, который выделяется на изображении,Ни один другой просмотрщик не будет поддерживать ваш текстовый тег, но он будет отображать TIFF.

Для любого из этих механизмов вам потребуется OCR и способ кодирования данных, которые вы получаете, либо в PDF, либо в пользовательский тег TIFF.Для OCR с открытым исходным кодом, посмотрите на Tesseract от Google.

Отказ от ответственности: Я работаю в Atalasoft.Наш SDK для обработки изображений DotImage содержит надстройки для распознавания текста, которые могут создавать PDF-файлы с возможностью поиска, а также добавлять и редактировать теги TIFF.

...