Это достаточно хорошо для меня
import numpy as np
x = np.fromfile(open('song.wav'),np.int16)[24:]
Он игнорирует первые 24 значения, потому что это не аудио, а заголовок.
Кроме того, если файл был стереофоническим, ваши каналы будут иметь чередующиеся индексы, поэтому я обычно просто уменьшаю его до моно с Audacity.