настройка размера параметра для doc2vec - PullRequest
0 голосов
/ 16 марта 2020

У меня есть набор данных из 1,2 млн. Описаний в одном предложении (5-50 слов), и я хочу сгруппировать их в n кластеров. Для преобразования векторов я хочу использовать doc2ve c, чтобы получить 1,2 миллилитра векторов одинакового размера. Однако я не уверен, каким должен быть параметр размера. Я читал, что это должно быть между 100-300, однако, поскольку каждый документ, в этом случае, имеет меньше токенов (слов), если вектор должен быть маленьким?

1 Ответ

0 голосов
/ 16 марта 2020

Ваши данные - более миллиона текстов и, возможно, десятки миллионов слов - достаточно велики, чтобы использовать стандартный вектор размером 100 измерений.

Людям с меньшими наборами данных, возможно, придется попробовать еще меньшие размеры векторов, но это далеко от случаев, когда Doc2Vec («Векторы абзаца») работает хорошо.

Но фактический лучший размер для вашего набора данных и целей - это то, что вы должны выяснить с помощью экспериментов. (Если в вашем наборе данных преобладают тексты из 5 слов, и если ваш словарь уникальных слов довольно мал, возможно, вам придется попробовать и меньшие размеры.)

Нет единого ответа - разнообразие ваш текст / словарь, а также шаблоны в ваших данных, будут влиять на лучший выбор. Только наличие вашей собственной заданной для проекта c повторяемой оценки, которую вы можете использовать для сравнения альтернативных вариантов, может привести вас к тому, что лучше.

...