** Я просмотрел множество потоков stackoverflow, ни одна из которых не решила мою проблему
Привет, ребята,
У меня есть веб-приложение ac #, созданное с помощью asp.net mvc. Я пытаюсь создать функцию, которая позволит администратору загружать .pdfs в систему. Каждый PDF-файл будет содержать опросы, и каждый опрос будет иметь одинаковый макет с различными данными. Мне понадобится система для извлечения данных из каждого .pdf, чтобы их можно было ввести в базу данных sql.
Форма включает в себя поля для отметок и рукописные текстовые поля. Я понимаю, что некоторые библиотеки OCR имеют очень низкий процент успеха при написании рукописного текста, поэтому я планирую использовать API распознавания Google Vision для чтения рукописного текста. У меня нет опыта работы с библиотеками OCR, поэтому я не уверен, с чего начать.
Итак, мои вопросы:
- Как программист, что бы вы сделали, чтобы решить эту проблему?
- Можете ли вы порекомендовать лучшие библиотеки OCR для использования? IText7 или Iron OCR и т. Д .?
- Позволит ли эта библиотека OCR выбрать определенную область в .pdf (например, флажок) и проверить, есть ли в этой области галочка или нет?
- Позволит ли мне эта библиотека OCR извлечь определенную область в .pdf (рукописное текстовое поле) и отправить эту область в API распознавания Google Vision для извлечения рукописного текста?
Ниже приведен образец формы опроса, которую я буду использовать (я загружу .pdf, который будет содержать 50 ~ 100 опросов, каждая страница - отдельный опрос):