Распознавание речи: обнаружение японской каны (согласный + гласный) - PullRequest
1 голос
/ 11 ноября 2011

Я хотел бы найти некоторый открытый исходный код (хотя я бы согласился на продукт с закрытым исходным кодом), чтобы преобразовать входящий аудиопоток японской каны (т.е. пары согласных + гласных) и распечатать их в значительной степени в режиме реального времени.

Однако я хочу использовать эти базовые звуковые блоки для своих собственных целей, поэтому я не хочу никакой высокоуровневой обработки, которая пытается извлечь подлинные японские слова. Я просто хочу получить сырой Кана.

Кто-нибудь знает о такой технологии?

Я только что узнал сегодня, что японский «алфавит» - это, как правило, сетка 10x5 Кана . 10 столбцов (пустые + 9 согласных) и 5 ​​строк (гласных)

и каждый элемент называется «кана», а язык состоит из последовательностей этих кана; это основные строительные блоки.

Это, безусловно, должно оказать большое влияние на алгоритмы распознавания речи.

Для западных языков все коммерческие механизмы распознавания речи, о которых я знаю, основаны на CMUSphinx , который работает по триграммной модели: он представляет каждое движение между тремя фонемами с уникальным вектором MFCC и вычисляет наиболее вероятная триграммовая последовательность (и) для высказывания (из которого он может тривиально вывести фонемы, а затем выполнить свой словарь WORD-триплетов, чтобы выяснить наиболее вероятное предложение).

Но для такого языка, как японский, я бы предположил, что это, возможно, больше не самый эффективный алгоритм.

Вместо этого может иметь смысл попытаться поймать каждую отдельную кана или пару кана.

... что будет 2 или 4 грамма. но не 3!

Есть что-нибудь там? Или они просто используют те же двигатели, что и западный мир?

1 Ответ

2 голосов
/ 11 ноября 2011

Юлиус имеет акустические и языковые модели для японского языка.Попробуйте и посмотрите, хорошо ли это для вашего приложения.

Я не знаю, что они обучали языковые модели, но Джулиус может поддерживать любой порядок n-грамм в обратном проходе.В дальнейшем это поддержка биграмм.Обычно в обратном проходе используют 4 грамма.Оба LM собраны вместе с помощью инструмента Julius.

Luis ASR Labs

...