Информацию о том, что такое метатезавр UMLS и SNOMEDCT, можно найти здесь (https://www.nlm.nih.gov/research/umls/knowledge_sources/metathesaurus/index.html) и здесь (https://www.ncbi.nlm.nih.gov/books/NBK9676/, конкретно https://www.ncbi.nlm.nih.gov/books/NBK9684/):
Метатезавр оченьбольшая, многоцелевая и многоязычная [реляционная?] словарная база данных, содержащая информацию о биомедицинских и связанных со здоровьем концепциях, их различных названиях и взаимосвязях между ними. Предназначена для использования разработчиками систем ...
... Метатезавр содержит понятия, имена понятий и другие атрибуты из более чем 100 терминологий, классификаций и тезаурусов, некоторые из которых представлены в нескольких изданиях.
Хотя я не уверен, как именно реализуется cTAKESЯ использую метатезавра UMLS (любой, кто знает, может просветить), я предполагаю, что он обращается к некоторому API для реляционной базы данных на основе учетных данных UMLS, которые необходимо добавить в примеры сценариев, поставляемых с загрузкой cTAKES (см. https://cwiki.apache.org/confluence/display/CTAKES/cTAKES+4.0+User+Install+Guide#cTAKES4.0UserInstallGuide-(Recommended)AddUMLSaccessrights).
... Вы можете выбрать один из двух реляционных форматов: Rich Release Format (RRF), представленный в 2004 году, и Original Release Format (ORF).
(я думаю) это то, что используется для питания механизмов анализа UIMA, используемых для обработки текста в cTAKES
UIMA - это архитектура, в которой базовые строительные блоки, называемые Analysis Engine (AE) , составлены для анализа документа[...] То, как Аннотаторы представляют и делятся своими результатами, является важной частью архитектуры UIMA.Для обеспечения возможности составления и повторного использования UIMA определяет Общая структура анализа (CAS) именно для этих целей.CAS - это объектный контейнер, который управляет и хранит типизированные объекты, имеющие свойства и значения, https://www.ibm.com/developerworks/data/downloads/uima/#How-does-it-work