Вы можете использовать Librosa , это библиотека обработки звука. Вы можете установить его по
pip install librosa
Тогда
import librosa
import tensorflow as tf
data , sampling_rate = librosa.load('data/sound.wav')
# for use in tensorflow
data_tensor = tf.convert_to_tensor( data )