Я работаю над распознаванием жестов, когда у меня есть видео, разделенные на кадры.Я обучил свою модель, как показано ниже, используя CNN3D
Layer (type) Output Shape Param #
=================================================================
conv3d_1 (Conv3D) (None, 10, 116, 116, 32) 12032
_________________________________________________________________
max_pooling3d_1 (MaxPooling3 (None, 5, 58, 58, 32) 0
_________________________________________________________________
dropout_1 (Dropout) (None, 5, 58, 58, 32) 0
_________________________________________________________________
conv3d_2 (Conv3D) (None, 3, 56, 56, 64) 55360
_________________________________________________________________
max_pooling3d_2 (MaxPooling3 (None, 1, 28, 28, 64) 0
_________________________________________________________________
dropout_2 (Dropout) (None, 1, 28, 28, 64) 0
_________________________________________________________________
flatten_1 (Flatten) (None, 50176) 0
_________________________________________________________________
dense_1 (Dense) (None, 256) 12845312
_________________________________________________________________
dropout_3 (Dropout) (None, 256) 0
_________________________________________________________________
dense_2 (Dense) (None, 128) 32896
_________________________________________________________________
dropout_4 (Dropout) (None, 128) 0
_________________________________________________________________
dense_3 (Dense) (None, 5) 645
График для категорическая_точность против val_categorical_accuracy выглядит как
В чем может быть причина этого ??Что я пропускаю или делаю неправильно?