Есть ли причина не нормализовать векторы вывода документов Doc2Vec для кластеризации? - PullRequest
0 голосов
/ 22 сентября 2019

Я знаю, что в Word2Vec длина векторов слов может кодировать свойства, такие как частота термин.В этом случае мы можем видеть два вектора слов, скажем, синонимы, с похожим значением, но разной длины, учитывая их использование в нашем корпусе.

Однако, если мы нормализуем векторы слов, мы сохраняем их «направления».смысла ", и мы могли бы их кластеризовать в соответствии с этим: смыслом.

Следуя этой последовательности мыслей, то же самое будет применимо к векторам документов в Doc2Vec.

Но мой вопрос заключается в том, есть липричина НЕ нормализации векторов документов, если мы хотим их кластеризовать?В Word2Vec можно сказать, что мы хотим сохранить свойство частоты слов, есть ли подобное для документов?

1 Ответ

0 голосов
/ 23 сентября 2019

Я не знаком ни с каким аргументом или исследовательским прецедентом, который подразумевает, что либо нормализованные по единицам, либо ненормализованные векторы документов лучше подходят для кластеризации.

Итак, я бы попробовал оба, чтобы увидеть, что, кажется, работает лучше для ваших целей

Другие мысли:

В Word2Vec мое общее впечатление состоит в том, что векторы слов большей величины связаны со словами, которые в данных обучения имеют более однозначный смысл.(То есть они достоверно имеют тенденцию подразумевать один и тот же меньший набор соседних слов.) Между тем, слова со множественным значением (многозначность) и использованием среди многих других разнообразных слов, как правило, имеют векторы меньшей величины.

Тем не менее, обычный способ сравнения таких векторов, косинусоподобие, не учитывает величины.Это вероятно потому, что большинству сравнений просто необходим лучший смысл слова, без какого-либо более тонкого индикатора «единства смысла».

Подобный эффект может присутствовать в Doc2Vec векторах: меньшие по величине doc-векторы могут быть намеком на то, что документ имеет более широкое использование слов / предмет, в то время как более высокий-документы с большой величиной предлагают более сфокусированные документы.(Я бы также предположил, что более длинные документы могут иметь тенденцию иметь меньшую документную векторность, потому что они используют большее разнообразие слов, тогда как небольшие документы с узким наборомслов / тем может иметь векторов документов более высокой величины . Но я специально не наблюдал / не проверял эту догадку, и любой эффект здесь мог бы сильно зависеть от других вариантов обучения, таких как количество итераций обучения.)

Таким образом, возможно , чтобы ненормализованные векторы были интересны для некоторых целей кластеризации, таких как отделение целевых документов от более общих документов.Итак, еще раз, после этого более длительного анализа: я бы посоветовал попробовать оба способа, чтобы увидеть, кажется ли то или другое лучше для ваших конкретных потребностей.

...