OCR миллиметровая бумага - PullRequest
1 голос
/ 20 июня 2009

Я хотел бы взять pdf-файл отсканированного графического блокнота (с почерком) и превратить его в текстовый файл.

Как я могу это сделать?

Спасибо

Ответы [ 3 ]

1 голос
/ 20 июня 2009

Существуют библиотеки OCR, которые преобразуют набор текста (OCRopus, tesseract и т. Д.)

Существуют также библиотеки рукописного ввода на основе Java. Я не уверен, есть ли у OCRopus такая возможность, одна библиотека, в которую я обращался для распознавания рукописного текста, была:

Онлайн-видео

Нейронные сети Java

Возможно, вы могли бы взять PDF-файл, преобразовать его в TIFF, если это необходимо (в соответствии с программным обеспечением), и это дало бы вам что-то ..

Удачи!

1 голос
/ 20 июня 2009

Проверьте библиотеку OCR, как OCRopus . Я не думаю, что для этого требуется PDF, поэтому вам, возможно, придется сначала преобразовать его в формат TIFF или JPEG.

0 голосов
/ 20 июня 2009

Если это записная книжка в виде файла PDF, вы можете отправить ее по электронной почте в учетную запись Gmail, а затем Gmail позволит вам «просматривать» PDF из браузера в виде файла HTML. Все еще страницы остаются изображениями.

Если вы хотите, чтобы текст из него мог работать, OCR мог бы работать, но он также не мог получить текст из него.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...