Я работаю над обучением модели последовательной маркировки в Python Flair.Мои необработанные текстовые данные содержат концептуальные фразы, которые я хочу, чтобы модель могла идентифицировать, которые в некоторых случаях представлены набором токенов, которые не являются непрерывными со словами между ними.Примером является «замена калия и магния», где «замена калия» является одной концепцией, которая представлена прерывистыми жетонами, а «замена магния» является другой концепцией, которая является непрерывной, но перекрывает первую.Я обучил другую модель Flair, где все концепции могут быть представлены одним токеном, и создание корпусных файлов CoNLL для этих данных было довольно простым.В данном случае, прерывистые и перекрывающиеся концепции поднимают 3 вопроса:
- Распознает ли модель последовательной маркировки Flair многоканальные концепции, такие как «замена магния», как единую концепцию, если я отмечу ее соответствующим образом вФайл CoNLL как:
"магний B-CONC1
замена I-CONC1"
Признает ли он прерывистые понятия как "замещение калия" в приведенной выше фразе:
"калий B-CONC2
и O
магний O
замена I-CONC2 "
Как я могу представить перекрывающиеся понятия в файле CoNLL?Есть ли какой-нибудь альтернативный способ представления корпуса с необработанным текстом и списком начальных / конечных индексов?
PS Это должно быть довольно ясно в контексте, но под понятием слова я подразумеваюмульти-токен тег / термин, который я пытаюсь обучить модели идентифицировать.
Я ценю ваш совет или информацию