Извлечение данных формы из PDF для вставки базы данных - PullRequest
0 голосов
/ 01 ноября 2019

** Я просмотрел множество потоков stackoverflow, ни одна из которых не решила мою проблему

Привет, ребята,

У меня есть веб-приложение ac #, созданное с помощью asp.net mvc. Я пытаюсь создать функцию, которая позволит администратору загружать .pdfs в систему. Каждый PDF-файл будет содержать опросы, и каждый опрос будет иметь одинаковый макет с различными данными. Мне понадобится система для извлечения данных из каждого .pdf, чтобы их можно было ввести в базу данных sql.

Форма включает в себя поля для отметок и рукописные текстовые поля. Я понимаю, что некоторые библиотеки OCR имеют очень низкий процент успеха при написании рукописного текста, поэтому я планирую использовать API распознавания Google Vision для чтения рукописного текста. У меня нет опыта работы с библиотеками OCR, поэтому я не уверен, с чего начать.

Итак, мои вопросы:

  1. Как программист, что бы вы сделали, чтобы решить эту проблему?
  2. Можете ли вы порекомендовать лучшие библиотеки OCR для использования? IText7 или Iron OCR и т. Д .?
  3. Позволит ли эта библиотека OCR выбрать определенную область в .pdf (например, флажок) и проверить, есть ли в этой области галочка или нет?
  4. Позволит ли мне эта библиотека OCR извлечь определенную область в .pdf (рукописное текстовое поле) и отправить эту область в API распознавания Google Vision для извлечения рукописного текста?

Ниже приведен образец формы опроса, которую я буду использовать (я загружу .pdf, который будет содержать 50 ~ 100 опросов, каждая страница - отдельный опрос):

text

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...