В Uima Ruta, словарь означает Список слов или Таблица слов .
WORDLIST:
WORDLIST FirstNameList = 'FirstNames.txt';
DECLARE FirstName;
Document{-> MARKFAST(FirstName, FirstNameList, true, 2)};
Это правило аннотирует все имена, перечисленные в списке «FirstNameList» в документе, и игнорирует регистр, если длина слова больше 2.
WORDTABLE:
WORDTABLE TestTable = 'TestTable.csv';
DECLARE Annotation Struct(STRING first);
Document{-> MARKTABLE(Struct, 1, TestTable, true, 4, ".,-", 2, "first" = 2)};
В этом примере во всем документе выполняется поиск всех вхождений записей первого столбца данного таблица «TestTable». Для каждого экземпляра создается аннотация типа Struct, а ее функция first заполняется записью второго столбца. Более того, регистр слова игнорируется, если длина слова превышает 4. Кроме того, символы '.', ',' И '-' игнорируются, но максимально два из них.
Когда мы необходимо использовать несколько списков слов - используйте TR IE action , чтобы увеличить производительность процесса.
Document{->TRIE("FirstNames.txt" = FirstName, "Companies.txt" = Company,'Dictionary.mtwl', true, 4, false, 0, ".,-/")};
Здесь словарь Dictionary.mtwl, который содержит списки слов для первого названия и компании используются для аннотирования документа. Слова, ранее содержавшиеся в файле «FirstNames.txt», помечены типом FirstName, а слова в файле «Companies.txt» - типом «Компания». Регистр слова игнорируется, если длина слова превышает 4. Дистанция редактирования отключена. Стоимость операции редактирования в настоящее время не может быть настроена аргументом. Последний аргумент дополнительно определяет несколько символов, которые будут игнорироваться.