На рисунке ниже показана простая архитектура глубокого обучения, способная изучать вложения для предложений и изображений.
Кроме того, используя набор данных pairs (sentence, image)
, где предложение является описанием изображения, можно обучить кодировщик дляпредложения и другой кодер для изображений, оба представляющие два разных объекта в одном и том же пространстве вложений.
Я искал подход для реализации этой архитектуры. Однако я еще не нашел четкой и многословной формы. Особенно, когда разные модели размещаются вместе (например, LSTM
для Encoder 1
и CNN
для Encoder 2
).
Может ли кто-нибудь дать мне указания (возможно, какой-нибудь пример или пошаговое руководство) о том, как реализоватьэта архитектура в современных фреймворках, таких как TensorFlow, Keras или PyTorch?