Я бы хотел обучить модель word2vec на своем собственном корпусе, используя пакет rword2vec
в R.
Функция word2vec
, используемая для обучения модели, требует train_file
.Документация пакета в R просто отмечает, что это обучающие текстовые данные, но не указывает, как их можно создать.
Данные обучения, использованные в примере на GitHub, можно скачать здесь: http://mattmahoney.net/dc/text8.zip. Я не могу понять, какой это тип файла.
Я просмотрел файл README на странице rword2vec GitHub и проверил официальную страницу word2vec на Google Code .
Мой корпусэто .csv
файл с около 68 000 документов.Размер файла составляет примерно 300 МБ.Я понимаю, что обучение модели на корпусе такого размера может занять много времени (или быть невозможным), но я готов обучить его на подмножестве корпуса.Я просто не знаю, как создать train_file
, требуемый функцией.