Есть ли способ использовать пакет R text2vec в качестве альтернативы keras :: text_to_sequence? - PullRequest
0 голосов
/ 18 февраля 2019

Я пытаюсь преобразовать много строк в последовательности чисел с помощью созданного словаря.Для одной строки:

library(tidyverse)
library(keras)

tkn <- text_tokenizer(6)
fit_text_tokenizer(tkn, c("Hi everyone this is an example"))

list("this example to numbers hi","also hi bob") %>% 
  texts_to_sequences(tkn,.)

Возвращает:

[[1]]
[1] 3 1

[[2]]
[1] 1

Кажется, что вы могли бы почти сделать это вместо этого с пакетом text2vec.Первая половина была бы:

library(tidyverse)
library(tokenizers)
library(text2vec)

vectorizer <- itoken(c("Hi everyone this is an example"), 
                  preprocessor = stringi::stri_trans_tolower, 
                  tokenizer = tokenize_words, 
                  ids = model_data[["id"]], 
                  progressbar = FALSE) %>%
  create_vocabulary() 

Но оттуда я не могу понять, как преобразовать строки в числа, такие как функция text_to_sequence.Я что-то упустил?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...