Преобразование списка массивов неравной формы в набор данных Tensorflow 2: ValueError: Невозможно преобразовать непрямую последовательность angular Python в Tensor - PullRequest
0 голосов
/ 21 апреля 2020

У меня есть токенизированные данные в виде списка неправильной формы массивов:

array([array([1179,    6,  208,    2, 1625,   92,    9, 3870,    3, 2136,  435,
          5, 2453, 2180,   44,    1,  226,  166,    3, 4409,   49, 6728,
         ...
         10,   17, 1396,  106, 8002, 7968,  111,   33, 1130,   60,  181,
       7988, 7974, 7970])], dtype=object)

с соответствующими целями:

Out[74]: array([0, 0, 0, ..., 0, 0, 1], dtype=object)

Я пытаясь преобразовать их в дополненный tf.data.Dataset(), но это не позволит мне преобразовать неравные формы в тензор. Я получу эту ошибку:

ValueError: Can't convert non-rectangular Python sequence to Tensor.

Полный код здесь. Предположим, что моя отправная точка находится после y = ...:

import os
os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
import tensorflow as tf
import tensorflow_datasets as tfds
import numpy as np

(train_data, test_data) = tfds.load('imdb_reviews/subwords8k',
                                    split=(tfds.Split.TRAIN, tfds.Split.TEST),
                                    as_supervised=True)

x = np.array(list(train_data.as_numpy_iterator()))[:, 0]
y = np.array(list(train_data.as_numpy_iterator()))[:, 1]


train_tensor = tf.data.Dataset.from_tensor_slices((x.tolist(), y))\
    .padded_batch(batch_size=8, padded_shapes=([None], ()))

Каковы мои варианты, чтобы превратить это в дополненную партию тензор?

1 Ответ

1 голос
/ 21 апреля 2020

Если ваши данные хранятся в Numpy массивах или Python списках, вы можете использовать метод tf.data.Dataset.from_generator для создания набора данных, а затем дополнить пакеты:

train_batches = tf.data.Dataset.from_generator(
    lambda: iter(zip(x, y)), 
    output_types=(tf.int64, tf.int64)
).padded_batch(
    batch_size=32,
    padded_shapes=([None], ())
)

Однако, если вы используете функцию tensorflow_datasets.load, то нет необходимости использовать as_numpy_iterator для разделения данных и меток, а затем соединить их вместе в наборе данных! Это избыточно и неэффективно. Объекты, возвращаемые tensorflow_datasets.load, уже являются экземпляром tf.data.Dataset. Итак, вам просто нужно использовать padded_batch для них:

train_batches = train_data.padded_batch(batch_size=32, padded_shapes=([None], []))
test_batches = test_data.padded_batch(batch_size=32, padded_shapes=([None], []))

Обратите внимание, что в TensorFlow 2.2 и выше вам больше не нужно предоставлять аргумент padded_shapes, если вы просто хотите, чтобы все оси были дополняется до самого длинного пакета (т. е. поведение по умолчанию).

...