Желаемое распределение весов в векторах вложения слов - PullRequest
0 голосов
/ 01 марта 2019

Я тренирую свои собственные векторы встраивания, так как я сосредоточен на академическом наборе данных (WOS);генерируются ли векторы с помощью word2vec или fasttext, не имеет особого значения.Скажем, мои векторы по 150 измерений каждый.Мне интересно, каким должно быть желаемое распределение весов внутри вектора, если вы усреднили по векторам всего корпуса?

Я провел несколько экспериментов, просматривая распределения выборки моих векторов, и пришел к следующим выводам (неуверенно относительно того, как они абсолютно верны):

Если кто-то тренирует свою модель слишкомПосле нескольких эпох векторы значительно не изменятся от начальных значений (это легко увидеть, если вы начинаете свои векторы как вес 0 в каждой категории).Таким образом, если мое распределение веса сосредоточено вокруг некоторой точки (обычно 0), то я недостаточно тренировал свой корпус.

Если тренировать свою модель со слишком малым количеством документов / переучиваний, то векторы показывают значительную корреляцию друг с другом (я обычно визуализирую случайный набор векторов, и вы можете видеть полосы, где все векторы имеют веса, которыеположительный или отрицательный).

Я представляю, что один «хороший» вектор имеет различные веса во всем диапазоне от -1 до 1. Для любого отдельного вектора он может иметь значительно больше измерений около -1 или 1. Однако распределение весаиз всего корпуса будет уравновешивать векторы, которые случайным образом имеют больше значений в направлении одного конца спектра или другого, так что распределение веса всего корпуса приблизительно равномерно распределено по всему корпусу.Правильна ли эта интуиция?

1 Ответ

0 голосов
/ 02 марта 2019

Мне незнакомы какие-либо исследования или народные представления о желательных «весах векторов» (под которыми я предполагаю, что вы имеете в виду отдельные измерения).

В целом, поскольку отдельные измерения не являются строго интерпретируемыми, я не уверен, что вы могли бы много рассказать о том, как должны распространяться значения какого-либо одного измерения.И помните, наша интуиция из низкоразмерных пространств (2d, 3d, 4d) часто не держится в многомерных пространствах.

Я видел два интересных, возможно, соответствующих наблюдения в исследовании:

  • некоторые наблюдали, что необработанные обученные векторы для слов с единичными значениями имеют тенденцию иметь большую величинуи те, которые имеют много значений, имеют меньшие величины.Правдоподобным объяснением этого может быть то, что векторы слов для многозначных слов-токенов тянутся в разных направлениях для множества контрастирующих значений и, таким образом, оказываются «где-то посередине» (ближе к началу координат и, следовательно, меньшей величины),Обратите внимание, однако, что большинство сравнений вектор-слово-вектор игнорируют величины, используя косинусное сходство только для сравнения углов (или в значительной степени эквивалентно, путем нормализации всех векторов к единице длины перед сравнениями),

  • В статье Му, Бхата и Вишваната "Все, кроме верха: простая и эффективная постобработка для представлений в словах" https://arxiv.org/abs/1702.01417v2 отмечается, что в среднемвсе векторы слов, которые были обучены вместе, имеют тенденцию к смещению в определенном направлении от начала координат, но устранение этого смещения (и других общих черт в векторах) может привести к улучшению векторов для многих задач.В своих личных экспериментах я наблюдал, что величина этого смещения от источника кажется коррелированной с количеством выбранных negative образцов, и что выбор экстремального (и необычного) значения только 1 отрицательного образца делает такойпредвзятость незначительна (но не может быть лучшей для общего качества или эффективности / скорости обучения).

Так что может быть полезной эвристикой о качестве вектора из рассмотрения относительного распределения векторов, но я не уверен, что кто-то будет чувствителен к отдельным измерениям (за исключением случаев, когда это оказывается проекцией векторов на определенную ось).

...