Question

В некоторых моделях встраивания использовалась модель Sentencepiece для токенизации. Таким образом, они дают векторы подслов для неизвестных слов, которых нет в словаре. Но я хочу получить вектор слов для каждого слова, такого как Word2ve c, fastText. Должен ли я усреднять векторы подслов для представления вектора слов?

Hari Prasad · Answer 1 · 27 марта 2020

Я провел несколько экспериментов на похожих строках, усреднение всех вложенных подслов имеет лучшее косинусное сходство с синонимом целого слова.
Так что да Усреднение имеет смысл и лучший вариант с токенизаторами, такими как WordPiece и PurePicepiece

Подсловные векторы для слова вектора, токенизированного Sentencepiece

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Подсловные векторы для слова вектора, токенизированного Sentencepiece

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы