Вероятность того, что вы получите конкретные результаты, высока, потому что большинство реализаций word2vec отбрасывают все слова, которые появляются меньше, чем какое-либо значение минимальное число , обычно 5. (Word2Vec не создает хорошие векторы для таких редких слов, и их присутствие обычно мешает лучшим векторам для других более распространенных слов, поэтому отбрасывание их обычно является хорошей идеей для корпусов реального размера.)
Таким образом, входной файл размером с игрушку, состоящий всего из 7 слов, появляющихся один раз, не оставляет ничего, кроме (возможно) одного синтетического слова.
Поскольку этот пакет PyPI представляет собой тонкую оболочку вокруг кода word2vec.c
, первоначально выпущенного Google, вы, вероятно, можете обратиться к этому коду , чтобы узнать больше о форматах / использовании.
Но вы также можете использовать реализацию Word2Vec
в библиотеке Gensim - гораздо более распространенный выбор при использовании Python, с гораздо большей документацией и гибкостью.