Я знакомлюсь с новым пакетом в R под названием textTinyR, который помогает создавать вложения на уровне документа из вложения на уровне слова. Для этого требуется word_vectors.txt, сохраненный в локальной системе / машине. Идея состоит в том, чтобы запустить это и использовать результаты для кластеризации текста в основном для социальных сетей. Некоторые аспекты предварительной обработки уже были приняты во внимание перед запуском метода Doc2Vec этого пакета (включая создание вектора слов - выполняется методом Glove в text2vec).
Для выполнения этой задачи используются следующие фрагменты кода, все вычисления выполняются в назначенном рабочем каталоге:
write.table(word_vectors, file = "word_vectors.txt", sep = " ", row.names = TRUE, quote = FALSE, col.names = FALSE)
doc_vectors <- Doc2Vec$new(token_list = list(tokens3), word_vector_FILE = "word_vectors.txt", print_every_rows = 5000, verbose = FALSE, copy_data = FALSE)
Однако последняя строка приводит к ошибке:
Ошибка в Reduced_word_vectors (self $ word_vector_FILE, private $ unq_tok,
: Ожидание строкового вектора: [type = list; требуется = STRSXP].
Я пробовал еще несколько версий указания пути в терминах передачи следующего аргумента word_vector_FILE метода Doc2Vec, но они также приводят к той же ошибке:
- word_vector_FILE = paste (c ('..', '/ Doc2Vec /', 'word_vectors.vec'),
- word_vector_FILE = "word_vectors.txt".
Я также сохранил файл word_vector в папке textTinyR, как показано в его документации (и имеет фиктивный файл word_vec.txt, и использовал команду: PATH = system.file ("example_files", "word_vectors.txt", package = "textTinyR") и передал этот путь к файлу методу Doc2Vec, но ошибка сохраняется.
Пример файла с векторным словом можно скачать по следующей ссылке:
https://wetransfer.com/downloads/dfcf7443c2ed8c4e2dfbf0825db46c2520180903100757/43efc66c2259c00419390c54e8bf1c8220180903100757/8ccc94
Может кто-нибудь поделиться своими советами о том, как обеспечить правильное чтение файла? Спасибо за ваш вклад заранее.