Youtube объединяет несколько видео и использует обычное встраивание, но обучает встраиванию.
Из 3.2 из Рекомендации по работе с глубокими нейронными сетями для YouTube
Сеть требует плотных входов фиксированного размера и простого усреднения
вложения выполнялись лучше всего среди нескольких стратегий (сумма,
компонентный макс и т. д.). Важно, что вложения изучены
совместно со всеми другими параметрами модели через нормальный градиент
обновления обратного спуска.
Как можно обучить встраивание, когда вы вводите среднее вложения?
Это похоже на проблему с курицей и яйцом. Вам нужно вложение, если вы хотите усреднить вложения для видео, но как тогда у вас может быть вложение до того, как у вас есть обучающие данные (то есть среднее вложение)