Ваши данные - более миллиона текстов и, возможно, десятки миллионов слов - достаточно велики, чтобы использовать стандартный вектор размером 100 измерений.
Людям с меньшими наборами данных, возможно, придется попробовать еще меньшие размеры векторов, но это далеко от случаев, когда Doc2Vec
(«Векторы абзаца») работает хорошо.
Но фактический лучший размер для вашего набора данных и целей - это то, что вы должны выяснить с помощью экспериментов. (Если в вашем наборе данных преобладают тексты из 5 слов, и если ваш словарь уникальных слов довольно мал, возможно, вам придется попробовать и меньшие размеры.)
Нет единого ответа - разнообразие ваш текст / словарь, а также шаблоны в ваших данных, будут влиять на лучший выбор. Только наличие вашей собственной заданной для проекта c повторяемой оценки, которую вы можете использовать для сравнения альтернативных вариантов, может привести вас к тому, что лучше.