Вот как я представляю это для клипов - разделяя проблему на более мелкие:
Вы можете сосредоточиться на проверке, улыбаются ли люди на видео.Сначала используйте алгоритм, который обнаруживает лица.Затем вы создаете несколько случайных (по времени) выборок этих лиц.Затем вы используете другой алгоритм (обученная нейронная сеть), чтобы проверить, улыбаются ли они в виде числа: p из n образцов обнаружена улыбка.
Используйте распознавание голоса, чтобы проверить,смеяться или плакать.
Проверить кивание (остерегайтесь в некоторых странах, это противоположный способ, но вы можете пропустить эту часть сейчас)
Убедитесь, что клип начинается громко и заканчивается таким образом.
После того, как вы узнали эти 4 (примеры), вы можете попробовать обучить нейронную сеть поверх них:
улыбающийся, позитивный кивок, громкий старт -> позитивный
Хорошим примером будут спортивные комментаторы, объявляющие команду победа / поражение.
На самом деле все это хорошо, когда вы не знаете, чтоони говорят, и это тот случай, когда вы хотите проверить все видео YouTube, но вы не хотите изучать все языки в мире.