Я работаю над набором данных mov ie, удаленным с сайта IMDB. Что еще более важно, я работаю над двумя информационными обзорами iemov ie и плакатами mov ie.
В первой части я обрабатываю данные обзора и векторизую их, используя word2ve c. Я получаю следующие функции:
print(X.shape);print(Y.shape)
(10265, 300)
(10265, 19)
Вторая часть - работа над теми же фильмами, но создание функций из изображений постеров (форма одного изображения = (224 224,3) с использованием предварительно обученной модели, такой как VG GNet. В итоге я получаю следующее:
print(X.shape);print(Y.shape)
(10265, 25088) ## image feature generated from frozen layers = 7 x 7 x 512=20588
(10265, 19)
Мне нужно объединить обе функции и обучить Deep MLP на этих комбинированных разнородных данных для прогнозирования Y (19 классов).
Я сталкиваюсь с проблемой, что MLP требует input_shape в видимом слое, поэтому мне нужно привести X-функцию из word2ve c и X из VG GNET в одну и ту же форму, скажем, например:
print(X_combined.shape);print(Y.shape)
(10265, 512)
(10265, 19)
Может быть транспонировать эти массивы могут быть решением. Или, может быть, создать тензор типа
X_combined= (10265,25088,300)
Y=(10265, 19)
Я все еще в замешательстве. Нужны некоторые указания здесь.