cTAKES вывод парсера - PullRequest
       43

cTAKES вывод парсера

1 голос
/ 20 февраля 2020

Я пытаюсь понять результат, полученный с помощью синтаксического анализатора cTAKES. Я не могу понять некоторые моменты -

парсер cTAKES вызывается через приложение TIKa, мы получаем следующий результат -

ctakes:AnatomicalSiteMention: liver:77:82:C1278929,C0023884
ctakes:ProcedureMention: CT scan:24:31:C0040405,C0040405,C0040405,C0040405
ctakes:ProcedureMention: CT:24:26:C0009244,C0009244,C0040405,C0040405,C0009244,C0009244,C0040405,C0009244,C0009244,C0009244,C0040405
ctakes:ProcedureMention: scan:27:31:C0034606,C0034606,C0034606,C0034606,C0441633,C0034606,C0034606,C0034606,C0034606,C0034606,C0034606
ctakes:RomanNumeralAnnotation: did:47:50:
ctakes:SignSymptomMention: lesions:62:69:C0221198,C0221198
ctakes:schema: coveredText:start:end:ontologyConceptArr
resourceName: sample

, и анализированный документ содержит -

Пациент прошел КТ в апреле, которая не выявила повреждений его печени

У меня есть следующие вопросы -

  1. почему идентификатор UMLS повторяется, как в ctakes: ПроцедураMention: сканирование: 27 : 31: C0009244, C0009244, C0040405, C0040405, C0009244, C0009244, C0040405, C0009244, C0009244, C0009244, C0040405? (Файл свойств конфигурации cTAKES имеет annotationProps = BEGIN, END, ONTOLOGY_CONCEPT_ARR)

  2. что указывает RomanNumeralAnnotation?

  3. В уникальном идентификаторе концепции, таком как C0040405, имеют ли эти 7 чисел какое-либо значение. Как они генерируются?

Системная информация:

Apache tika 1.10

Apache ctakes 3.2.2

...