Используйте keras pad_sequence в панде dataframe - PullRequest
0 голосов
/ 20 июня 2019

У меня есть фрейм данных pandas, который содержит индексы слов.

    id  seq                          int_sequence
0   111 cat over dog                 [2, 7, 3]
1   222 hello silly dog cat from     [6, 9, 3, 2, 5]
2   333 biscuit sandwich food        [1, 8, 4]

Я сейчас пытаюсь дополнить последовательности нулями до максимальной длины.

padded_sequences = pad_sequences(df.int_sequence, maxlen=MAX_SEQ_LENGTH, padding='post', value=0)

, который возвращаетnumpy array of shape (3,5) - после чего я использую приведенное ниже преобразование, чтобы преобразовать numpy массив в df и присоединиться к исходному df:

df_padded_sequences = pd.DataFrame({ 'padded_seq': padded_sequences.tolist()})

Пока он работает, ончувствует себя хакером - поэтому я хотел бы pad_sequences на месте на pandas df в основном, поэтому я не беспокоюсь о том, что какой-либо из заказов будет нарушен и, следовательно, изменен.

Спасибо!

1 Ответ

0 голосов
/ 20 июня 2019

Хорошо, я заставил это работать! Рад слышать любые лучшие решения, хотя ...

df['padded_sequences'] = pad_sequences(df.int_sequence, maxlen=MAX_SEQ_LENGTH, padding='post', value=0).tolist()

Преобразование массива numpy в список.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...