Вспомните Doc2Vec в Spark и введите векторы для машинного обучения с помощью логической регрессии. - PullRequest
0 голосов
/ 06 ноября 2019

Я побежал к Генсиму, чтобы обучить Doc2vec из корпуса. Мне нужно извлечь вектор каждого документа в качестве входных данных для логической регрессии в искре.

1 Ответ

0 голосов
/ 06 ноября 2019

Если ваша Doc2Vec модель находится в переменной model, каждый вектор документа доступен по его ключу (tag, предоставленному во время обучения) через:

model.docvecs[tag]

Массив всехНеобработанные векторы документов доступны в следующих форматах:

model.docvecs.vectors_docs

(Если вы использовали обычные целые как теги для ваших документов во время обучения, то вектор каждого документа находится в предоставленной позиции int. Если вы использовали строки как тегивместо этого, строковый тег, соответствующий каждой позиции в этом массиве vectors_docs, находится в списке * 1011. * Если вы использовали смесь целых чисел и строк - что очень редко и не рекомендуется, за исключением экспертов - тогда используется оптимизацияболее сложный, и вы должны проверить исходный код для полной истории.)

...