Кто-нибудь знает какие-либо библиотеки (предпочтительно Java, но я бы посмотрел на что угодно), которые позволили бы мне разбивать текст на изображении и создавать меньшие изображения для каждого слова? Я протестировал GOCR и tesseract , но я не собираюсь транскрибировать текст, и во многих случаях, таких как рукописные заметки или плохо функционирующие пишущие машинки, текст должен транскрибироваться человек в любом случае. Тот факт, что большая часть текста написана на испанском языке, также усложняет распознавание текста. Я искал архивы stackoverflow и не нашел ничего. Цель моего вопроса в том, чтобы в университете у нас были сотни тысяч действительно старых рукописных заметок, и если бы я мог разбить их слово за словом на более мелкие изображения, мы могли бы попытаться расшифровать и перевести их.