Я хочу знать "d-вектор" для диаризации спикера - PullRequest
1 голос
/ 06 мая 2020

Когда в модель DNN был добавлен сегментированный речевой звук, я понял, что среднее значение функций, извлеченных из последнего скрытого слоя, равно «d-вектору». В этом случае я хочу знать, можно ли извлечь d-вектор говорящего, даже если я поставлю голос говорящего без обучения. Используя это, когда вводится сегментированное значение голосового файла, произнесенного несколькими людьми (с использованием mel-filterbank или MF CC), можем ли мы различать guish говорящего путем кластеризации извлеченного d-вектора значение, как упоминалось ранее?

1 Ответ

0 голосов
/ 06 мая 2020

Чтобы ответить на ваши вопросы:

  1. После обучения модели вы можете получить d-vector просто путем прямого распространения входного вектора по сети. Обычно вы смотрите на вывод (последний уровень) ИНС, но вы также можете получить значения из предпоследнего (d-vector) слоя.

  2. Да, вы можете отличить guish громкоговорители от d-vector, так как он обеспечивает высокоуровневое встраивание аудиосигнала с уникальными характеристиками. для разных людей. См., Например, эту бумага .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...