Как я могу обучить модель word2vec на своем корпусе в R? - PullRequest
1 голос
/ 01 мая 2019

Я бы хотел обучить модель word2vec на своем собственном корпусе, используя пакет rword2vec в R.

Функция word2vec, используемая для обучения модели, требует train_file.Документация пакета в R просто отмечает, что это обучающие текстовые данные, но не указывает, как их можно создать.

Данные обучения, использованные в примере на GitHub, можно скачать здесь: http://mattmahoney.net/dc/text8.zip. Я не могу понять, какой это тип файла.

Я просмотрел файл README на странице rword2vec GitHub и проверил официальную страницу word2vec на Google Code .

Мой корпусэто .csv файл с около 68 000 документов.Размер файла составляет примерно 300 МБ.Я понимаю, что обучение модели на корпусе такого размера может занять много времени (или быть невозможным), но я готов обучить его на подмножестве корпуса.Я просто не знаю, как создать train_file, требуемый функцией.

...