Подсловные векторы для слова вектора, токенизированного Sentencepiece - PullRequest
1 голос
/ 17 марта 2020

В некоторых моделях встраивания использовалась модель Sentencepiece для токенизации. Таким образом, они дают векторы подслов для неизвестных слов, которых нет в словаре. Но я хочу получить вектор слов для каждого слова, такого как Word2ve c, fastText. Должен ли я усреднять векторы подслов для представления вектора слов?

1 Ответ

0 голосов
/ 27 марта 2020
  • Я провел несколько экспериментов на похожих строках, усреднение всех вложенных подслов имеет лучшее косинусное сходство с синонимом целого слова.

  • Так что да Усреднение имеет смысл и лучший вариант с токенизаторами, такими как WordPiece и PurePicepiece

...