Как загрузить набор данных аудио WAV в TensorFlow - PullRequest
0 голосов
/ 02 мая 2018

Я пытаюсь обучить стандартную полностью подключенную нейронную сеть (например, многослойный персептрон) с помощью TensorFlow. Я следую учебному пособию, в котором аналогичная нейронная сеть обучается с использованием набора данных MNIST рукописных цифр (http://yann.lecun.com/exdb/mnist/).

Однако TensorFlow предлагает некоторые встроенные операции, которые я не могу воспроизвести.

Ex: Для загрузки данных вызывается следующая функция:

from tensorflow.examples.tutorials.mnist import input_data    
mnist = input_data.read_data_sets("/tmp/data/", one_hot=True)

или для загрузки следующего пакета из данных вызывается следующая функция:

batch_x, batch_y = mnist.train.next_batch(batch_size)

Кто-нибудь знает подобную реализацию для аудиоданных? Я хочу, чтобы входные данные были необработанными данными WAV-файлов. Мои данные структурированы таким образом:

data/
    train/
       up/
         ...
       down/
         ...
       ...
     test/
       up/
         ...
       down/
         ...
       ...

     validate/
       up/
         ...
       down/
         ...
       ...

Заранее спасибо!

1 Ответ

0 голосов
/ 02 мая 2018

Нет встроенной операции, специфичной для импорта аудиоданных.

Однако, вы можете взглянуть на эту реализацию в качестве отправной точки.

Сначала вы можете создать список ваших аудиофайлов, используя

def load_data(data_dir):
    """ Return 2 lists of tuples:
    [(class_id, user_id, path), ...] for train
    [(class_id, user_id, path), ...] for validation
    """
    # Just a simple regexp for paths with three groups:
    # prefix, label, user_id
    pattern = re.compile("(.+\/)?(\w+)\/([^_]+)_.+wav")
    all_files = glob(os.path.join(data_dir, 'train/audio/*/*wav'))

    with open(os.path.join(data_dir, 'train/validation_list.txt'), 'r') as fin:
        validation_files = fin.readlines()
    valset = set()
    for entry in validation_files:
        r = re.match(pattern, entry)
        if r:
            valset.add(r.group(3))

, а затем создайте функцию генератора для подачи файлов в вашу модель Tensorflow:

def data_generator(data, params, mode='train'):
    def generator():
        if mode == 'train':
            np.random.shuffle(data)
        # Feel free to add any augmentation
        for (label_id, uid, fname) in data:
            try:
                _, wav = wavfile.read(fname)
                wav = wav.astype(np.float32) / np.iinfo(np.int16).max

                L = 16000  # be aware, some files are shorter than 1 sec!
                if len(wav) < L:
                    continue
                # let's generate more silence!
                samples_per_file = 1 if label_id != name2id['silence'] else 20
                for _ in range(samples_per_file):
                    if len(wav) > L:
                        beg = np.random.randint(0, len(wav) - L)
                    else:
                        beg = 0
                    yield dict(
                        target=np.int32(label_id),
                        wav=wav[beg: beg + L],
                    )
            except Exception as err:
                print(err, label_id, uid, fname)

    return generator
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...