создать последовательность не словарных слов - PullRequest
0 голосов
/ 02 августа 2020

У меня есть несколько векторов слов -

recvfrom, sendto, epoll_pwait, recvfrom, sendto, epoll_pwait getuid, recvfrom, writev, getuid, epoll_pwait, getuid

Теперь я хочу их токенизировать а затем превратить их в последовательности для подачи в модель -

Для стандартного вектора слов я бы сделал что-то вроде этого:

### Create sequence
vocabulary_size = 20000
tokenizer = Tokenizer(num_words= vocabulary_size)
tokenizer.fit_on_texts(df['text'])
sequences = tokenizer.texts_to_sequences(df['text'])
data = pad_sequences(sequences, maxlen=50)

Но в моих данных у меня есть не словарные слова, а также У меня есть повторяющиеся слова. Как преобразовать эти данные в последовательности?

...