Я хотел бы найти некоторый открытый исходный код (хотя я бы согласился на продукт с закрытым исходным кодом), чтобы преобразовать входящий аудиопоток японской каны (т.е. пары согласных + гласных) и распечатать их в значительной степени в режиме реального времени.
Однако я хочу использовать эти базовые звуковые блоки для своих собственных целей, поэтому я не хочу никакой высокоуровневой обработки, которая пытается извлечь подлинные японские слова. Я просто хочу получить сырой Кана.
Кто-нибудь знает о такой технологии?
Я только что узнал сегодня, что японский «алфавит» - это, как правило, сетка 10x5 Кана . 10 столбцов (пустые + 9 согласных) и 5 строк (гласных)
и каждый элемент называется «кана», а язык состоит из последовательностей этих кана; это основные строительные блоки.
Это, безусловно, должно оказать большое влияние на алгоритмы распознавания речи.
Для западных языков все коммерческие механизмы распознавания речи, о которых я знаю, основаны на CMUSphinx , который работает по триграммной модели: он представляет каждое движение между тремя фонемами с уникальным вектором MFCC и вычисляет наиболее вероятная триграммовая последовательность (и) для высказывания (из которого он может тривиально вывести фонемы, а затем выполнить свой словарь WORD-триплетов, чтобы выяснить наиболее вероятное предложение).
Но для такого языка, как японский, я бы предположил, что это, возможно, больше не самый эффективный алгоритм.
Вместо этого может иметь смысл попытаться поймать каждую отдельную кана или пару кана.
... что будет 2 или 4 грамма. но не 3!
Есть что-нибудь там? Или они просто используют те же двигатели, что и западный мир?