Как извлечь почерк из PDF? - PullRequest
0 голосов
/ 10 июля 2019

Я хочу извлечь рукописный текст из файла PDF. Будем благодарны за любые рекомендации библиотеки и полезные ресурсы для начала работы. Я бы предпочел придерживаться Python или Java для выполнения этой задачи.

1 Ответ

0 голосов
/ 10 июля 2019

Лучший инструмент для решения вашей задачи - использовать библиотеку OpenCV для обработки изображений и некоторую нейронную сеть для классификации вашего текста.

OpenCV (Open SourceComputer Vision Library) - это библиотека программного обеспечения для компьютерного зрения и машинного обучения с открытым исходным кодом.OpenCV был создан для обеспечения общей инфраструктуры для приложений компьютерного зрения и для ускорения использования машинного восприятия в коммерческих продуктах.

Там вы можете найти множество готовых к использованию функций, которые сделают васработа легкая.Я предлагаю выполнить следующие шаги:

  1. Используйте методы OpenCV для предварительной обработки и выполнения сегментации на ваших изображениях.Ваша цель здесь состоит в том, чтобы найти , какие области ваших изображений имеют рукописный текст .
  2. Используйте некоторый метод классификации, чтобы классифицировать обнаруженный текст и найти, какая буква соответствует написанному тексту.Я рекомендую обучить модель Support Vector Machines (SVM) с библиотекой , которую использует OpenCV, или использовать Keras для создания собственной нейронной сети.

Здесь вы можете увидеть полный учебник о том, как выполнять вашу задачу.

Еще один более простой учебник с использованием Keras вы можете найти здесь .

Если вы хотите узнать больше об OpenCV, я рекомендую веб-сайт pyimagesearch

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...