Я хочу сгенерировать последовательности текста, основанные на обучении RNN текстовым фрагментам (что я делал ранее в статьях, подобных этой ).
Один шаг - сделатьфрагменты текста и разбейте их на подпоследовательности для обучения модели:
c("E","X","A","M","P","L","E")
станет
c("E")
c("E","X")
c("E","X","A")
...
Мой текущий метод заключается в использовании карты для каждого слова:
require(tidyverse)
data <- data_frame(id = c(1,2),word = list(c("E","X","A","M","P","L","E"), c("R","S","T","U","D","I","O")))
result <- data %>%
pmap(function(id,word){
subs <- map(1:length(word),function(i) word[1:i])
data_frame(id = id, sub = subs)
}) %>%
bind_rows()
Но это чрезвычайно медленно для больших наборов данных.Есть ли быстрый способ генерировать все эти частичные последовательности?