Сокс http://sox.sourceforge.net/ может быть вашим другом для этого. Он может читать много разных форматов и выводить их как сырые с любым типом данных, который вы предпочитаете. На самом деле, я просто написал код для чтения блока данных из аудиофайла в массив numpy.
Я решил пойти по этому пути для мобильности (sox очень широко доступен) и для максимальной гибкости типов входного аудио, которые я мог бы использовать. На самом деле, из первоначального тестирования кажется, что он не заметно медленнее для того, для чего я его использую ... который читает короткие (несколько секунд) аудио из очень длинных (часов) файлов.
Переменные, которые вам нужны:
SOX_EXEC # the sox / sox.exe executable filename
filename # the audio filename of course
num_channels # duh... the number of channels
out_byps # Bytes per sample you want, must be 1, 2, 4, or 8
start_samp # sample number to start reading at
len_samp # number of samples to read
Фактический код действительно прост. Если вы хотите извлечь весь файл, вы можете удалить элементы start_samp, len_samp и trim.
import subprocess # need the subprocess module
import numpy as NP # I'm lazy and call numpy NP
cmd = [SOX_EXEC,
filename, # input filename
'-t','raw', # output file type raw
'-e','signed-integer', # output encode as signed ints
'-L', # output little endin
'-b',str(out_byps*8), # output bytes per sample
'-', # output to stdout
'trim',str(start_samp)+'s',str(len_samp)+'s'] # only extract requested part
data = NP.fromstring(subprocess.check_output(cmd),'<i%d'%(out_byps))
data = data.reshape(len(data)/num_channels, num_channels) # make samples x channels
PS: Вот код для чтения содержимого из заголовков аудиофайлов с помощью sox ...
info = subprocess.check_output([SOX_EXEC,'--i',filename])
reading_comments_flag = False
for l in info.splitlines():
if( not l.strip() ):
if( reading_comments_flag and l.strip() ):
if( comments ):
comments += '\n'
comments += l
if( l.startswith('Input File') ):
input_file = l.split(':',1)[1].strip()[1:-1]
elif( l.startswith('Channels') ):
num_channels = int(l.split(':',1)[1].strip())
elif( l.startswith('Sample Rate') ):
sample_rate = int(l.split(':',1)[1].strip())
elif( l.startswith('Precision') ):
bits_per_sample = int(l.split(':',1)[1].strip()[0:-4])
elif( l.startswith('Duration') ):
tmp = l.split(':',1)[1].strip()
tmp = tmp.split('=',1)
duration_time = tmp[0]
duration_samples = int(tmp[1].split(None,1)[0])
elif( l.startswith('Sample Encoding') ):
encoding = l.split(':',1)[1].strip()
elif( l.startswith('Comments') ):
comments = ''
reading_comments_flag = True
if( other ):
other += '\n'+l
other = l
if( output_unhandled ):
print >>sys.stderr, "Unhandled:",l