Question

Я перешел по следующей ссылке, чтобы научиться использовать generator для keras модели до fit_generator вкл. https://stanford.edu/~shervine/blog/keras-how-to-generate-data-on-the-fly Одна проблема, с которой я столкнулся, заключается в том, что когда я вызывал model.predict_generator() в каком-то генераторе тестовых данных, длина возвращаемого значения не совпадает с той, которую я отправил в генераторе. Мои тестовые данные имеют длину 229431, и я использую batch_size 256, и когда я определяю __len__ функцию в классе generator следующим образом:

class DataGenerator(keras.utils.Sequence):
    """A simple generator"""

    def __init__(self, list_IDs, labels, dim, dim_label, batch_size=512, shuffle=True, is_training=True):
        """Initialization"""
        self.list_IDs = list_IDs
        self.labels = labels
        self.dim = dim
        self.dim_label = dim_label
        self.batch_size = batch_size
        self.shuffle = shuffle
        self.is_training = is_training
        self.on_epoch_end()

    def __len__(self):
        """Denotes the number of batches per epoch"""
        return int(np.ceil(len(self.list_IDs) / self.batch_size))

    def __getitem__(self, index):
        """Generate one batch of data"""
        # Generate indexes of the batch
        indexes = self.indexes[index * self.batch_size: (index + 1) * self.batch_size]

        # Find list of IDs
        list_IDs_temp = [self.list_IDs[k] for k in indexes]
        list_labels_temp = [self.labels[k] for k in indexes]

        # Generate data
        result = self.__data_generation(list_IDs_temp, list_labels_temp, self.is_training)
        if self.is_training:
            X, y = result
            return X, y
        else:
            # only return X when test
            X = result
            return X

    def on_epoch_end(self):
        """Updates indexes after each epoch"""
        self.indexes = np.arange(len(self.list_IDs))
        if self.shuffle:
            np.random.shuffle(self.indexes)

    def __data_generation(self, list_IDs_temp, list_labels_temp, is_training):
        """Generates data containing batch_size samples"""
        # Initialization
        # X is a list of np.array
        X = np.empty((self.batch_size, *self.dim))
        if is_training:
            # y could have multiple columns
            y = np.empty((self.batch_size, *self.dim_label), dtype=int)

        # Generate data
        for i, (ID, label) in enumerate(zip(list_IDs_temp, list_labels_temp)):
            # Store sample
            X[i,] = np.load(ID)
            if is_training:
                # Store class
                y[i,] = np.load(label)
        if is_training:
            return X, y
        else:
            return X

Возвращенная длина моего прогнозируемого значения - 229632. Вот код predict:

test_generator = DataGenerator(partition, labels, is_training=False, **self.params)
        predict_raw = self.model.predict_generator(generator=test_generator, workers=12, verbose=2)

Я полагал, что 229632/256 = 897, что является длиной моего генератора, когда я изменяю метод __len__ с DataGenerator на return int(np.ceil(len(self.list_IDs) / self.batch_size)), я получаю 229376 предсказанных значений, 229376/256 = 896, что правильный номер длины. Но то, что я передал генератору, это 229431 образец.

И я думаю, что в методе __getitem__ при запуске в последнем пакете он должен получить только менее 256 образцов для автоматического тестирования. Но, по-видимому, это не так, так как я могу убедиться, что модель предсказывает правильное количество выборок?

dataka · Answer 1 · 15 декабря 2018

Для последней партии индексы, рассчитанные по методу __getitem__, не имеют правильного размера. Чтобы предсказать правильное количество выборок, индексы должны быть определены следующим образом (см. post ):

def __getitem__(self, index):
    """Generate one batch of data"""
    idx_min = idx*self.batch_size
    idx_max = min(idx_min + self.batch_size, len(self.list_IDs))
    indexes = self.indexes[idx_min: idx_max]

    ...

keras model.predict_generator () не возвращает правильное количество экземпляров

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

keras model.predict_generator () не возвращает правильное количество экземпляров

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов