Может ли Python Flair интерпретировать прерывистые аннотации? - PullRequest
0 голосов
/ 20 июня 2019

Я работаю над обучением модели последовательной маркировки в Python Flair.Мои необработанные текстовые данные содержат концептуальные фразы, которые я хочу, чтобы модель могла идентифицировать, которые в некоторых случаях представлены набором токенов, которые не являются непрерывными со словами между ними.Примером является «замена калия и магния», где «замена калия» является одной концепцией, которая представлена ​​прерывистыми жетонами, а «замена магния» является другой концепцией, которая является непрерывной, но перекрывает первую.Я обучил другую модель Flair, где все концепции могут быть представлены одним токеном, и создание корпусных файлов CoNLL для этих данных было довольно простым.В данном случае, прерывистые и перекрывающиеся концепции поднимают 3 вопроса:

  1. Распознает ли модель последовательной маркировки Flair многоканальные концепции, такие как «замена магния», как единую концепцию, если я отмечу ее соответствующим образом вФайл CoNLL как:

"магний B-CONC1

замена I-CONC1"

Признает ли он прерывистые понятия как "замещение калия" в приведенной выше фразе:

"калий B-CONC2

и O

магний O

замена I-CONC2 "

Как я могу представить перекрывающиеся понятия в файле CoNLL?Есть ли какой-нибудь альтернативный способ представления корпуса с необработанным текстом и списком начальных / конечных индексов?

PS Это должно быть довольно ясно в контексте, но под понятием слова я подразумеваюмульти-токен тег / термин, который я пытаюсь обучить модели идентифицировать.

Я ценю ваш совет или информацию

1 Ответ

0 голосов
/ 25 июня 2019

Flair не поддерживает прерывистые и перекрывающиеся аннотации.Подробнее на https://github.com/zalandoresearch/flair/issues/824#issuecomment-504322361

...