Когда в модель DNN был добавлен сегментированный речевой звук, я понял, что среднее значение функций, извлеченных из последнего скрытого слоя, равно «d-вектору». В этом случае я хочу знать, можно ли извлечь d-вектор говорящего, даже если я поставлю голос говорящего без обучения. Используя это, когда вводится сегментированное значение голосового файла, произнесенного несколькими людьми (с использованием mel-filterbank или MF CC), можем ли мы различать guish говорящего путем кластеризации извлеченного d-вектора значение, как упоминалось ранее?