Я работаю с набором данных cnn_dailymail , который является частью набора данных TensorFlow .
Я получаю к нему доступ следующим образом:
import tensorflow_datasets as tfds
data, info = tfds.load('cnn_dailymail', with_info=True)
train_data, test_data = data['train'], data['test']
Чтобы извлечь один пример из набора данных, который я использую:
cnn_ex, = train_data.take(1)
cnn_ex['highlights'].numpy()
Это вернет строку, подобную этой: "emma monaghan, 27, from glasgow, used to weigh 18st 5lbs ."
. Я хотел бы применить некоторые шаги предварительной обработки к этому набору данных, чтобы я мог использовать его как вход в алгоритм глубокого обучения. Пример выше должен выглядеть следующим образом после предварительной обработки: "<start> emma monaghan, 27, from glasgow, used to weigh 18st 5lbs . <end>"
.
Есть ли способ получить доступ и предварительно обработать весь текст (в пределах train_data ) сразу, не применяя функцию take()
несколько раз? Например, преобразование набора данных TensorFlow в простой массив уже поможет. Спасибо!