Словарь в UIMA RUTA в Eclipse - PullRequest
       47

Словарь в UIMA RUTA в Eclipse

0 голосов
/ 14 января 2020

Я новичок в UIMA Ruta и Eclipse. Может быть, некоторые из вас имели дело с аннотацией. Скажите, пожалуйста, что означает слово «словарь» в таком контексте? Заранее спасибо!

Ответы [ 3 ]

4 голосов
/ 16 января 2020

В контексте UIMA Ruta словарь - это не что иное, как список слов: внешний ресурс, используемый для быстрой аннотации текстовых элементов, объявленных в названном ресурсе. Вот пример:

WORDLIST FirstNameList = 'FirstNames.txt';
DECLARE FirstName;
Document{-> MARKFAST(FirstName, FirstNameList)};

Для получения дополнительной информации, пожалуйста, обратитесь к документации .

0 голосов
/ 26 февраля 2020

В Uima Ruta, словарь означает Список слов или Таблица слов .

WORDLIST:

WORDLIST FirstNameList = 'FirstNames.txt';
DECLARE FirstName;
Document{-> MARKFAST(FirstName, FirstNameList, true, 2)};

Это правило аннотирует все имена, перечисленные в списке «FirstNameList» в документе, и игнорирует регистр, если длина слова больше 2.

WORDTABLE:

WORDTABLE TestTable = 'TestTable.csv';
DECLARE Annotation Struct(STRING first);
Document{-> MARKTABLE(Struct, 1, TestTable, true, 4, ".,-", 2, "first" = 2)};

В этом примере во всем документе выполняется поиск всех вхождений записей первого столбца данного таблица «TestTable». Для каждого экземпляра создается аннотация типа Struct, а ее функция first заполняется записью второго столбца. Более того, регистр слова игнорируется, если длина слова превышает 4. Кроме того, символы '.', ',' И '-' игнорируются, но максимально два из них.

Когда мы необходимо использовать несколько списков слов - используйте TR IE action , чтобы увеличить производительность процесса.

Document{->TRIE("FirstNames.txt" = FirstName, "Companies.txt" = Company,'Dictionary.mtwl', true, 4, false, 0, ".,-/")};

Здесь словарь Dictionary.mtwl, который содержит списки слов для первого названия и компании используются для аннотирования документа. Слова, ранее содержавшиеся в файле «FirstNames.txt», помечены типом FirstName, а слова в файле «Companies.txt» - типом «Компания». Регистр слова игнорируется, если длина слова превышает 4. Дистанция редактирования отключена. Стоимость операции редактирования в настоящее время не может быть настроена аргументом. Последний аргумент дополнительно определяет несколько символов, которые будут игнорироваться.

0 голосов
/ 15 января 2020

Я думаю, что вы на самом деле имеете в виду аннотатор словаря UIMA. В основном, это аннотирует слова в документах с их словарными статьями. Подробнее см. Руководство пользователя .

...