каждый кадр имеет две временные метки, одна из которых dts (декодер декодирует его из dts, поэтому это означает временную метку декодирования), другой - pts (временная метка воспроизведения), поэтому, когда av_decode_audio запускается, получают необработанные аудиоданные, вы можете проверить их громкостьвыше 'x', если да, получите очки от аудиокадра. затем вы проверяете видеокадры, чтобы получить правильный