UIMA Ruta: заставить HTMLAnnotator аннотировать больше тегов - PullRequest
0 голосов
/ 31 января 2019

Я относительно новичок в UIMA Ruta, и мне нужно обрабатывать документы HTML.У меня уже есть сценарий ProcessHTML.ruta, который в основном такой же, как в документации (с небольшими изменениями):

ENGINE utils.HtmlAnnotator;
ENGINE utils.HtmlConverter;
ENGINE HtmlViewWriter;
TYPESYSTEM utils.HtmlTypeSystem;
TYPESYSTEM utils.SourceDocumentInformation;

Document{->CONFIGURE(HtmlAnnotator, "onlyContent"=true), EXEC(HtmlAnnotator, {TAG})};

Document { -> CONFIGURE(HtmlConverter, "inputView" = "_InitialView",
    "outputView" = "plain", "expandOffsets"=false, "replaceLinebreaks"=true, "skipWhitespacs"=true, "linebreakReplacement"=" ", "processAll"=true),
      EXEC(HtmlConverter)};

Document{ -> CONFIGURE(HtmlViewWriter, "inputView" = "plain",
    "outputView" = "_InitialView", "output" = "../converted/"),
    EXEC(HtmlViewWriter)};

Я заметил, что мне может потребоваться информация макета из источника HTML для моего следующего сценария, которыйнет в настоящее время.Например, текст часто помечается тегами, но в выводе нет сильных аннотаций.Если я правильно понимаю, все теги, не реализованные в HTMLTypeSystem, снабжены аннотацией TAG по умолчанию.

Можно ли определить дополнительные аннотации для определенных тегов HTML, которые будут сохранены?Есть ли какая-то конфигурация для этого или мне нужно как-то расширить аннотатор?

1 Ответ

0 голосов
/ 14 февраля 2019

Добавление следующего к HTMLTypeSystem.xml сделало трюк:

<typeDescription>
    <name>org.apache.uima.ruta.type.html.STRONG</name>
    <description></description>
    <supertypeName>org.apache.uima.ruta.type.html.TAG</supertypeName>
</typeDescription>

(Престижность коллеге, который понял это)

...