Я не знаком ни с каким аргументом или исследовательским прецедентом, который подразумевает, что либо нормализованные по единицам, либо ненормализованные векторы документов лучше подходят для кластеризации.
Итак, я бы попробовал оба, чтобы увидеть, что, кажется, работает лучше для ваших целей
Другие мысли:
В Word2Vec
мое общее впечатление состоит в том, что векторы слов большей величины связаны со словами, которые в данных обучения имеют более однозначный смысл.(То есть они достоверно имеют тенденцию подразумевать один и тот же меньший набор соседних слов.) Между тем, слова со множественным значением (многозначность) и использованием среди многих других разнообразных слов, как правило, имеют векторы меньшей величины.
Тем не менее, обычный способ сравнения таких векторов, косинусоподобие, не учитывает величины.Это вероятно потому, что большинству сравнений просто необходим лучший смысл слова, без какого-либо более тонкого индикатора «единства смысла».
Подобный эффект может присутствовать в Doc2Vec
векторах: меньшие по величине doc-векторы могут быть намеком на то, что документ имеет более широкое использование слов / предмет, в то время как более высокий-документы с большой величиной предлагают более сфокусированные документы.(Я бы также предположил, что более длинные документы могут иметь тенденцию иметь меньшую документную векторность, потому что они используют большее разнообразие слов, тогда как небольшие документы с узким наборомслов / тем может иметь векторов документов более высокой величины . Но я специально не наблюдал / не проверял эту догадку, и любой эффект здесь мог бы сильно зависеть от других вариантов обучения, таких как количество итераций обучения.)
Таким образом, возможно , чтобы ненормализованные векторы были интересны для некоторых целей кластеризации, таких как отделение целевых документов от более общих документов.Итак, еще раз, после этого более длительного анализа: я бы посоветовал попробовать оба способа, чтобы увидеть, кажется ли то или другое лучше для ваших конкретных потребностей.