Преобразование из одного типа MFCC в другой - HTK - PullRequest
1 голос
/ 29 июля 2011

Я работаю с инструментарием HTK над задачей определения слов и у меня классическое несоответствие данных обучения и тестирования. Обучающие данные состояли только из «чистых» (записанных через микрофон) данных. Данные были преобразованы в MFCC_E_D_A параметры, которые затем были смоделированы HMM (на уровне телефона). Мои тестовые данные были записаны по стационарным и мобильным телефонным каналам (с учетом искажений и т. П.). Использование параметров MFCC_E_D_A с HVite приводит к неправильному выводу. Я хочу использовать cepstral mean normalization с MFCC_E_D_A_Z параметрами, но это будет бесполезно, так как HMM не моделируются с этими данными. Мои вопросы следующие:

  1. Есть ли способ, которым я могу преобразовать MFCC_E_D_A_Z в MFCC_E_D_A? Таким образом, я следую по этому пути:
  2. Есть ли способ преобразовать существующие HMM, которые моделируют MFCC_E_D_A параметры в MFCC_E_D_A_Z?

Если есть способ сделать (1) сверху, как будет выглядеть файл конфигурации для HCopy? Я написал следующий HCopy файл конфигурации для конвертации:
SOURCEFORMAT = MFCC_E_D_A_Z<br> TARGETKIND = MFCC_E_D_A<br> TARGETRATE = 100000.0<br> SAVECOMPRESSED = T<br> SAVEWITHCRC = T<br> WINDOWSIZE = 250000.0<br> USEHAMMING = T<br> PREEMCOEF = 0.97<br> NUMCHANS = 26<br> CEPLIFTER = 22<br> NUMCEPS = 12<br> ENORMALISE = T

Это не работает. Как я могу улучшить это?

1 Ответ

2 голосов
/ 30 июля 2011

Вы должны понимать, что телефонные записи имеют другой диапазон частот, потому что они ограничены в каналах.Обычно диапазон частот от 200 до 3500 Гц присутствует.Широкополосная акустическая модель обучается в диапазоне от 100 до 6800. Она не будет надежно декодировать телефонную речь, потому что телефонная речь не соответствует требуемым частотам от 3500 до 6800. Она не связана с типом функции или означает нормализацию или искажение, вы просто не можете сделать

Вам необходимо обучить исходную модель звуку, преобразованному в 8 кГц, или, по крайней мере, изменить параметры набора фильтров в соответствии с диапазоном частот телефона.

...