Я относительно новичок в UIMA Ruta, и мне нужно обрабатывать документы HTML.У меня уже есть сценарий ProcessHTML.ruta
, который в основном такой же, как в документации (с небольшими изменениями):
ENGINE utils.HtmlAnnotator;
ENGINE utils.HtmlConverter;
ENGINE HtmlViewWriter;
TYPESYSTEM utils.HtmlTypeSystem;
TYPESYSTEM utils.SourceDocumentInformation;
Document{->CONFIGURE(HtmlAnnotator, "onlyContent"=true), EXEC(HtmlAnnotator, {TAG})};
Document { -> CONFIGURE(HtmlConverter, "inputView" = "_InitialView",
"outputView" = "plain", "expandOffsets"=false, "replaceLinebreaks"=true, "skipWhitespacs"=true, "linebreakReplacement"=" ", "processAll"=true),
EXEC(HtmlConverter)};
Document{ -> CONFIGURE(HtmlViewWriter, "inputView" = "plain",
"outputView" = "_InitialView", "output" = "../converted/"),
EXEC(HtmlViewWriter)};
Я заметил, что мне может потребоваться информация макета из источника HTML для моего следующего сценария, которыйнет в настоящее время.Например, текст часто помечается тегами, но в выводе нет сильных аннотаций.Если я правильно понимаю, все теги, не реализованные в HTMLTypeSystem, снабжены аннотацией TAG по умолчанию.
Можно ли определить дополнительные аннотации для определенных тегов HTML, которые будут сохранены?Есть ли какая-то конфигурация для этого или мне нужно как-то расширить аннотатор?