Я думаю, что RMS будет наиболее точной мерой. Стоит отметить, что мы воспринимаем громкость по-разному на разных частотах, поэтому конвертируем аудио в частотное пространство с помощью fft (numpy.fft отлично работает только на 30 с аудио). Теперь вычислите спектральную плотность мощности из этого. Взвесьте PSD по частоте, используя некоторую кривую громкости. Особенно частоты ниже 10 Гц, так как там будет много энергии (это будет доминировать в расчете RMS во временной области), но мы не можем слышать это. Теперь интегрируйте PSD и возьмите квадратный корень, и это даст полученное RMS.
Вы также можете разбить mp3 на разделы или окна и применить эту технику, чтобы придать громкость отдельным разделам.