Использование UIMA RUTA с существующими тегерами - PullRequest
0 голосов
/ 18 ноября 2018

Я недавно начал работать с UIMA RUTA. У меня есть несколько вопросов. 1: Как мы можем использовать существующие тегеры (DBpedia, MunPx Tagger) в RUTA? 2: Как мы можем отформатировать вывод, используя Annotation Writer? 3: принимает ли RUTA другие форматы файлов, кроме .txt, в качестве входных данных?

1 Ответ

0 голосов
/ 30 ноября 2018

1: Как мы можем использовать существующие тегеры (DBpedia tagger, MunPx Tagger) в RUTA?

UIMA Ruta не зависит от конкретной системы типов. Если у вас есть конвейер с разными тегами, и эти тегеры создают аннотации некоторой системы типов, вы можете написать правила, используя эти аннотации в скрипте Ruta, и использовать эти правила в механизме анализа в этом конвейере. В зависимости от конфигурации вам может потребоваться импортировать систему типов в вашем скрипте Ruta.

2: Как мы можем отформатировать вывод, используя Annotation Writer?

Если вы ссылаетесь на AnnoationWriter в ruta-core, то ответ таков: вы не можете отформатировать вывод. Вам нужно использовать другой механизм анализа.

3: принимает ли RUTA другие форматы файлов, кроме .txt, в качестве входных данных?

Обычно Ruta обрабатывает данный объект CAS, который заполняется любым читателем для любого формата файла. В UIMA Ruta Workbench конфигурация запуска поддерживает ".txt", ".csv", "html", "xhtml" в качестве форматов текстовых файлов и ".xmi", ".xcas", ".bcas", ". scas "с использованием обнаружения SerialFormat CasIOUtils.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Я разработчик UIMA Ruta

...