Как извлечь детали из отсканированных отчетов, используя NLP / ML? - PullRequest
0 голосов
/ 18 февраля 2020

Мне нужно извлечь данные о здоровье человека из тысячи отчетов, содержащих информацию о здоровье пользователей.

Но проблема в том, что все эти отчеты от разных поставщиков и имеют данные в совершенно другом формате.

Sample image showing different report formatL

Я пытался, Form Recognizer и другие инструменты OCR, но из-за разного формата в каждом отчете я не получаю ожидаемый результат.

Теперь я хочу написать некоторый пользовательский код python, в котором я хочу добиться этого, используя Spacy, NLTK и другие библиотеки.

Может кто-нибудь подсказать мне подход, который я должен использовать.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...