Я пытаюсь извлечь некоторые подробности из отчета о крови:
Ввод:
PATIENT NAME : XYZ PATIENT ID :
ACCESSION NO : 0009RK049559 AGE : 17 Years GENDER : Female DATE OF BIRTH :
DRAWN : 30/11/2018 00:00 RECEIVED : 30/11/2018 15:49 REPORTED : 30/11/2018 19:12
REFERRING DOCTOR : SELF CLIENT PATIENT ID :
Test Report Status Final Results Biological Reference Interval Units
COMPLETE CARE TOTAL
BLOOD COUNTS
HEMOGLOBIN 14.9 12.0 - 15.0 g/dL
METHOD : PHOTOMETRIC MEASUREMENT
RED BLOOD CELL COUNT 4.85 High 3.8 - 4.8 mil/µL
METHOD : COULTER IMPEDENCE PRINCIPLE
WHITE BLOOD CELL COUNT 6.50 4.0 - 10.0 thou/µL
METHOD : COULTER IMPEDENCE PRINCIPLE
PLATELET COUNT 323 150 - 410 thou/µL
METHOD : IMPEDENCE / PLATELET HISTOGRAM
RBC AND PLATELET INDICES
HEMATOCRIT 44.0 36 - 46 %
METHOD : CALCULATED PARAMETER
MEAN CORPUSCULAR VOL 90.7 83.0 - 101.0 fL
METHOD : DERIVED PARAMETER
MEAN CORPUSCULAR HGB. 30.7 27.0 - 32.0 pg
Ввод:
Name: XYZ, Age: X years, Gender: XYZ
Test_entity: HEMOGLOBIN, Value: 14.9, Range:4.5-5, Units: g/dL
Test_entity: RED BLOOD CELL COUNT, Value: 4.85, Range:3.8-4.8, Units: mil/µL
...
...
Как решить эту проблему?Нужен ли мне ML или NLP для этого?
Существует один AWS Amazon Textract, который делает это с использованием ML и предварительно обучен различным видам документов.Он может извлекать пары ключ-значение name, age, gender
, но не кортежи Test_entity, Value, Range and Units
(возможно, потому, что он специально не обучен для таких данных).