Полуавтоматическое выделение текста в изображениях? - PullRequest
0 голосов
/ 02 марта 2011

Greetings Overflowers,

Учитывая, что:

  • У меня есть изображения документов с текстом на разных языках
  • Мне нужен этот текст, чтобы его можно было выделитьword) от конечных пользователей
  • У меня уже есть этот текст в цифровом формате
  • Я помогу моей программе выяснить, где слова
  • Я не хочу, чтобы моя помощьбудь мне утомителен
  • Я также вручную исправлю небольшие неточности после моей программы

Какая лучшая простая помощь, которую я могу предоставить, чтобы моя программа могла рисовать прямоугольники вокруг выбранных слов?Какой алгоритм вы бы использовали для этой программы?Я попробовал OCR, например OmniPage Pro, но они не предоставляют эту функциональность.

С уважением

1 Ответ

0 голосов
/ 10 марта 2011

Несколько лет назад я применил ограничивающий прямоугольник и выделил слова в своем приложении.Вы сказали: «У меня есть этот текст в простом цифровом формате».Одним из ключевых компонентов является наличие координат символов или слов, чтобы отобразить их в соответствующих областях изображения.Как и в PDF с возможностью поиска, при выделении текста он внутренне сопоставляется со слоем изображения, а противоположный выбор на изображении выбирает соответствующий текст.Но даже из PDF эти координаты не могут быть экспортированы, я считаю.Если в вашем тексте в настоящее время нет такой информации о координатах, возможно, проще всего будет повторно отобразить изображения с помощью высококачественного механизма, который может выводить координаты как часть вывода.Если вы будете использовать WiseTREND OCR Cloud 2.0, то вывод XML будет производить все эти подробные метаданные.Если информация о координатах существует, то все основные компоненты присутствуют, и это всего лишь обход эффективного дизайна пользовательского интерфейса.

...