Точность валидации с Keras fit_generator отличается от точности расчета вручную с использованием тех же данных - PullRequest
0 голосов
/ 03 февраля 2020

Я тренирую модель с fit_generator и разбиваю данные на поезд и набор проверок. Во время обучения я также оцениваю данные проверки на метрику точности c и получаю val_acc 0,9519.

Проблема в том, что я также оцениваю точность модели, вызывая генератор проверки вручную , используя функцию python next. Оценивая таким образом, я получаю точность проверки 0,74.

Почему существует такая большая разница между двумя показателями точности, когда я оцениваю одни и те же данные?

Вот фрагмент моего кода ниже. Я надеюсь, что кто-то может помочь мне с проблемой!

train_datagen = ImageDataGenerator(
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    rescale=1./255,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    validation_split=0.1,
    fill_mode='nearest')

train_gen = train_datagen.flow_from_directory(
    train_dir,
    target_size = (224,224),
    batch_size = batch_size,
    class_mode = 'categorical',
    subset = 'training')

val_datagen = ImageDataGenerator(
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    rescale=1./255,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    validation_split=0.1,
    fill_mode='nearest')

val_gen = val_datagen.flow_from_directory(
    train_dir,
    target_size = (224,224),
    batch_size = 1,
    class_mode = 'categorical',
    subset = 'validation',
    shuffle = False)

model.fit_generator(train_gen,
                    steps_per_epoch = train_gen.samples // batch_size,
                    validation_data=val_gen,
                    validation_steps=val_gen.samples,
                    initial_epoch =  history.epoch[-1]+1,
                    epochs=10)

После того, как я позвоню fit_generator, я получу оценку val_a cc 0,95, вот снимок экрана для справки.

И затем оценка вручную, используя функцию python next для val_gen:

predictions = []
labels = []

val_gen.reset()

# batch_size of val_gen = 1
for _ in range(val_gen.samples):
    X_val, y_val = next(val_gen)
    pred = model.predict(X_val)
    predictions.append(pred)
    labels.append(y_val)
predictions = np.array(predictions)
predictions = np.argmax(predictions,axis=2)
labels = np.array(labels)
labels = np.argmax(labels, axis=2)

from sklearn.metrics import accuracy_score
accuracy = accuracy_score(predictions,labels)

Используя sklearn precision_score, я получаю 0,74.

1 Ответ

0 голосов
/ 03 февраля 2020

Это, конечно, довольно "хакерский", но в продолжение моего предположения я сделал быстрый тест:

from keras.preprocessing.image import ImageDataGenerator
from keras.datasets import cifar10
import numpy as np

(x_train, y_train), (x_test, y_test) = cifar10.load_data()

val_datagen = ImageDataGenerator(
    rotation_range=40,
    width_shift_range=0.2,
    height_shift_range=0.2,
    rescale=1./255,
    shear_range=0.2,
    zoom_range=0.2,
    horizontal_flip=True,
    validation_split=0.1,
    fill_mode='nearest')

val_gen = val_datagen.flow(
    (x_train, y_train),
    batch_size = 1,
    shuffle = False)

print("first try")
for i, (x, y) in enumerate(val_gen):
    print(x.mean())
    if i >= 5:
        break

val_gen.reset()

print()
print("second try")
for i, (x, y) in enumerate(val_gen):
    print(x.mean())
    if i >= 5:
        break

После вызова .reset() мы будем работать с началом данных опять же, но, как вы видите, среднее значение в обоих прогонах различно:

first try
0.41334367
0.5364689
0.49460053
0.32310262
0.33062425
0.34027505

second try
0.41919175
0.5279837
0.48176324
0.32459995
0.34152344
0.38571596

Таким образом, я бы предположил, что ваша проблема заключается не в вызове .fit() из-за ручной итерации, а в самом самом деле val_datagen. Вы назначили случайные операции, такие как rescale, rotation_range, ..., которые после вызова .reset() для этого объекта будут возвращать разные результаты.

Почему я использовал .mean() на данные изображения? Просто чтобы иметь некоторую быструю операцию, которая выдаст разные результаты, если изображения содержат разную информацию.

Вам потребуется seed бэкэнд (например, TensorFlow) Keras в чтобы заставить ГСЧ всегда производить один и тот же случайный выход. Или не используйте случайное увеличение данных при проверке в первую очередь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...