Есть ли способ правильно пометить (PoS Tagging) слова, которые образуют фразу вместе? - PullRequest
0 голосов
/ 04 ноября 2019

Я пытался различными способами правильно пометить группу слов, которые образуют фразу (особенно Фраза Существительное), но не удалось.

Пример: '', 'первый', 'рано', 'утро',' солнечные лучи '

' ранний 'и' утро 'ошибочно помечены как' существительное ', где ожидаемый результат должен быть: (' first ',' adverb '), (' early ',' adverb '), («утро», «прилагательное»), («солнечные лучи», «существительное»)

Не могли бы вы предложить процедуру для правильного обозначения этих слов?

Заранее спасибо.

1 Ответ

0 голосов
/ 05 ноября 2019

POS-теги обычно используют скрытые марковские модели. Если ваши данные не помечены правильно этими методами, то либо ваш тэггер (самодельный?) Не подходит для ваших входных данных, либо ваши тренировочные данные не подходят (слишком маленькие, ложные аннотации и т. Д.). Различные средства, которые, как я предполагаю, являются тэггерами из NLTK, spaCy или инструментами из Stanford (https://nlp.stanford.edu/software/).). Эти программные пакеты будут выполнять работу в качестве текущих исследований, поэтому, если они все еще подвержены ошибкам, вы не будетебыть в состоянии это исправить. Если у вас под рукой большой кластер, создайте свой собственный тегер, используя n-граммы с n> 3, если хотите, но я сомневаюсь, что это будет лучше, чем модули, названные выше.

...