Использование пути к файлу предварительно сохраненных векторов слов с textTinyR (Doc2Vec) - PullRequest
0 голосов
/ 03 сентября 2018

Я знакомлюсь с новым пакетом в R под названием textTinyR, который помогает создавать вложения на уровне документа из вложения на уровне слова. Для этого требуется word_vectors.txt, сохраненный в локальной системе / машине. Идея состоит в том, чтобы запустить это и использовать результаты для кластеризации текста в основном для социальных сетей. Некоторые аспекты предварительной обработки уже были приняты во внимание перед запуском метода Doc2Vec этого пакета (включая создание вектора слов - выполняется методом Glove в text2vec).

Для выполнения этой задачи используются следующие фрагменты кода, все вычисления выполняются в назначенном рабочем каталоге:

write.table(word_vectors, file = "word_vectors.txt", sep = " ", row.names = TRUE, quote = FALSE, col.names = FALSE)

doc_vectors <- Doc2Vec$new(token_list = list(tokens3), word_vector_FILE = "word_vectors.txt", print_every_rows = 5000, verbose = FALSE, copy_data = FALSE)

Однако последняя строка приводит к ошибке:

Ошибка в Reduced_word_vectors (self $ word_vector_FILE, private $ unq_tok, : Ожидание строкового вектора: [type = list; требуется = STRSXP].

Я пробовал еще несколько версий указания пути в терминах передачи следующего аргумента word_vector_FILE метода Doc2Vec, но они также приводят к той же ошибке:

  1. word_vector_FILE = paste (c ('..', '/ Doc2Vec /', 'word_vectors.vec'),
  2. word_vector_FILE = "word_vectors.txt".

Я также сохранил файл word_vector в папке textTinyR, как показано в его документации (и имеет фиктивный файл word_vec.txt, и использовал команду: PATH = system.file ("example_files", "word_vectors.txt", package = "textTinyR") и передал этот путь к файлу методу Doc2Vec, но ошибка сохраняется.

Пример файла с векторным словом можно скачать по следующей ссылке: https://wetransfer.com/downloads/dfcf7443c2ed8c4e2dfbf0825db46c2520180903100757/43efc66c2259c00419390c54e8bf1c8220180903100757/8ccc94

Может кто-нибудь поделиться своими советами о том, как обеспечить правильное чтение файла? Спасибо за ваш вклад заранее.

...