Я использую пакет text2vec
R для воспроизведения Common Crawl (токены 840B, 2.2M Vocab, Cased, 300D векторы, загрузка 2,03 ГБ): glove.840B.300d.zip , который можетнайти на https://nlp.stanford.edu/projects/glove/
Я не смог найти настройки, которые я должен использовать для воспроизведения набора векторов, который я хочу, в учебнике text2vec и на сайте Stanford GloVe.
Какой будет правильный параметр для успешного воспроизведения Общего сканирования?
glove = GlobalVectors$new(word_vectors_size = 50, vocabulary = vocab, x_max = 10)
wv_main = glove$fit_transform(tcm, n_iter = 10, convergence_tol = 0.01)
Вот что я пробовал:
glove = GlobalVectors$new(word_vectors_size = 840, vocabulary = vocab, x_max = 10)
wv_main = glove$fit_transform(tcm, n_iter = 10, convergence_tol = 0.01)