Я (свободно) следовал учебному пособию SIDEKIT по идентификации громкоговорителей с использованием i-векторов (см. Запуск системы i-vector для получения подробной информации).В учебнике упоминается, что:
The lists (for i-vectors) needed are:
- the list of files to train the GMM-UBM
- an IdMap listing the files to train the total variability matrix
- an IdMap to train the PLDA, WCCN, Mahalanobis matrices
- the IdMap listing the enrolment segments and models
- the IdMap describing the test segments
Завершив учебник для GMM-UBM, я понимаю использование списка GMM-UBM и IdMaps для регистрации и тестовых сегментов, но что делают другие два (общая изменчивостьМатрица и обучение PLDA / WCCN / Mahalanobis)?
Кроме того, какие данные я бы использовал для определения этих IdMaps?У меня нет доступа к наборам данных NIST, поэтому я использую данные 60 мужчин и 60 женщин с 9 высказываниями (5 использовались для регистрации, 4 для тестирования), все они были получены из корпуса VoxForge.
Насколько я понимаю, матрица полной изменчивости представляет собой i-вектор, эквивалентный UBM, и используется для формирования отличительных векторов каждого динамика.
Единственное, что я знаю о PLDA, WCCN и Mahalanobis, - это то, что все методы подсчета / дифференцирования помогают идентифицировать / проверять говорящих друг от друга.