Я пытаюсь понять результат, полученный с помощью синтаксического анализатора cTAKES. Я не могу понять некоторые моменты -
парсер cTAKES вызывается через приложение TIKa, мы получаем следующий результат -
ctakes:AnatomicalSiteMention: liver:77:82:C1278929,C0023884
ctakes:ProcedureMention: CT scan:24:31:C0040405,C0040405,C0040405,C0040405
ctakes:ProcedureMention: CT:24:26:C0009244,C0009244,C0040405,C0040405,C0009244,C0009244,C0040405,C0009244,C0009244,C0009244,C0040405
ctakes:ProcedureMention: scan:27:31:C0034606,C0034606,C0034606,C0034606,C0441633,C0034606,C0034606,C0034606,C0034606,C0034606,C0034606
ctakes:RomanNumeralAnnotation: did:47:50:
ctakes:SignSymptomMention: lesions:62:69:C0221198,C0221198
ctakes:schema: coveredText:start:end:ontologyConceptArr
resourceName: sample
, и анализированный документ содержит -
Пациент прошел КТ в апреле, которая не выявила повреждений его печени
У меня есть следующие вопросы -
почему идентификатор UMLS повторяется, как в ctakes: ПроцедураMention: сканирование: 27 : 31: C0009244, C0009244, C0040405, C0040405, C0009244, C0009244, C0040405, C0009244, C0009244, C0009244, C0040405? (Файл свойств конфигурации cTAKES имеет annotationProps = BEGIN, END, ONTOLOGY_CONCEPT_ARR)
что указывает RomanNumeralAnnotation?
В уникальном идентификаторе концепции, таком как C0040405, имеют ли эти 7 чисел какое-либо значение. Как они генерируются?
Системная информация:
Apache tika 1.10
Apache ctakes 3.2.2