Мне нужно извлечь данные о здоровье человека из тысячи отчетов, содержащих информацию о здоровье пользователей.
Но проблема в том, что все эти отчеты от разных поставщиков и имеют данные в совершенно другом формате.
Я пытался, Form Recognizer и другие инструменты OCR, но из-за разного формата в каждом отчете я не получаю ожидаемый результат.
Теперь я хочу написать некоторый пользовательский код python, в котором я хочу добиться этого, используя Spacy, NLTK и другие библиотеки.
Может кто-нибудь подсказать мне подход, который я должен использовать.