Усреднение векторов всех слов в коротком тексте - один из способов получить суммарный вектор для текста.Это часто работает хорошо, как быстрый базовый уровень.(И, если все, что у вас есть, это слово-векторы, может быть вашим основным вариантом.)
Такое представление может иногда улучшаться, если вы сделали средневзвешенное значение, основанное на некоторой другой мере относительной важности термина (такой какTF-IDF), или использовались необработанные слова (перед нормализацией до единичной длины, так как необработанные величины перед нормализацией могут иногда указывать на силу смысла).
Вы можете создавать векторы на уровне пользователя, усредняя все их тексты или (примерно эквивалентно) помещая все свои авторские слова в псевдодокумент и усредняя все эти слова вместе.
Вы можете сохранить больше разнообразия постов пользователя, особенно если его интересы охватывают многие области, сначала кластеризуя их твиты в N кластеров, а затем моделируя пользователя как N центроидных векторов кластеров.Может быть, даже N варьируется в зависимости от пользователя, в зависимости от того, насколько сильно он пишет в Твиттере или насколько далеко его темы.
С оригинальными твитами вы также можете тренировать векторы для каждого твита, используя алгоритм типа «Paragraph Vector» (он же «Doc2Vec» в библиотеке, такой как Python gensim.) Но это может иметь сложные требования к ОЗУ с400 миллионов разных документов.(Если у вас меньшее количество пользователей, возможно, они могут быть «документами», или они могут быть предсказанными классами учебного сеанса FastText в режиме классификации.)