Если вы ищете текстовое описание контента видео, содержащего только кадры видео, то, боюсь, вам не повезло - текущее состояние исследований в области компьютерного зрения далеко от этой цели. Если вы можете согласиться с нетекстовым описанием, алгоритмы определения ключевого кадра видео или выстрела / сцены могут дать вам сводку на основе изображения.