Question

Когда в модель DNN был добавлен сегментированный речевой звук, я понял, что среднее значение функций, извлеченных из последнего скрытого слоя, равно «d-вектору». В этом случае я хочу знать, можно ли извлечь d-вектор говорящего, даже если я поставлю голос говорящего без обучения. Используя это, когда вводится сегментированное значение голосового файла, произнесенного несколькими людьми (с использованием mel-filterbank или MF CC), можем ли мы различать guish говорящего путем кластеризации извлеченного d-вектора значение, как упоминалось ранее?

Lukasz Tracewski · Answer 1 · 06 мая 2020

Чтобы ответить на ваши вопросы:

После обучения модели вы можете получить d-vector просто путем прямого распространения входного вектора по сети. Обычно вы смотрите на вывод (последний уровень) ИНС, но вы также можете получить значения из предпоследнего (d-vector) слоя.
Да, вы можете отличить guish громкоговорители от d-vector, так как он обеспечивает высокоуровневое встраивание аудиосигнала с уникальными характеристиками. для разных людей. См., Например, эту бумага .

Я хочу знать "d-вектор" для диаризации спикера

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Я хочу знать "d-вектор" для диаризации спикера

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы