Почему вложения слов с лингвистическими функциями (например, Sense2Vec) не используются? - PullRequest
2 голосов
/ 31 мая 2019

Учитывая, что встраиваемые системы, такие как Sense2Vec, включают лингвистические функции, такие как частичная речь, почему эти встраивания используются не так часто?

Среди популярных работ в NLP сегодня Word2Vec и GloVe являются наиболее распространеннымииспользуемые системы встраивания слов.Несмотря на то, что они включают только информацию о словах и не имеют лингвистических особенностей слов.

Например, при анализе настроений, классификации текста или задачах машинного перевода логично, что если входные данные включают лингвистические особенностиКроме того, производительность может быть улучшена.Особенно при неоднозначности таких слов, как «утка», глагол и «утка», существительное.

Является ли это мышление ошибочным?Или есть какая-то другая практическая причина, по которой эти вложения не так широко используются.

1 Ответ

1 голос
/ 31 мая 2019

Это очень субъективный вопрос.Одной из причин является сам pos-tagger.Pos-tagger - это вероятностная модель, которая может добавить к общей ошибке / путанице.

Например,скажем, у вас есть плотные представления для duck-NP и duck-VB, но во время выполнения / вывода ваш pos-tagger помечает «утку» как нечто иное, тогда вы даже не найдете его.Более того, это также эффективно уменьшает общее количество раз, когда ваша система видит слово duck, поэтому можно утверждать, что сгенерированные представления будут слабыми.

В довершение ко всему, основная проблема, к которой обращался sense2vec, - это контекстуализация представлений слов, которая была решена с помощью контекстных представлений, таких как BERT и ElMo и т. Д., Без каких-либо вышеуказанных проблем.

...