Создание изображений слов из текста в изображении - PullRequest
3 голосов
/ 15 июля 2011

Кто-нибудь знает какие-либо библиотеки (предпочтительно Java, но я бы посмотрел на что угодно), которые позволили бы мне разбивать текст на изображении и создавать меньшие изображения для каждого слова? Я протестировал GOCR и tesseract , но я не собираюсь транскрибировать текст, и во многих случаях, таких как рукописные заметки или плохо функционирующие пишущие машинки, текст должен транскрибироваться человек в любом случае. Тот факт, что большая часть текста написана на испанском языке, также усложняет распознавание текста. Я искал архивы stackoverflow и не нашел ничего. Цель моего вопроса в том, чтобы в университете у нас были сотни тысяч действительно старых рукописных заметок, и если бы я мог разбить их слово за словом на более мелкие изображения, мы могли бы попытаться расшифровать и перевести их.

1 Ответ

3 голосов
/ 15 июля 2011

http://sourceforge.net/projects/javaocr/

В частности, скриншот ниже, похоже, связан с тем, что вы ищете.

Java OCR Image Tracer Screenshot

...