Аудио майнинг для границ слов - PullRequest
2 голосов
/ 25 апреля 2011

Что я планирую сделать:

Я хочу развить английский акцент (без профессиональной подготовки).

Множество аксиом, стоящих за моими рассуждениями, с резюме:

Следование заведомо упрощено, извините за это. Я старался держать вопрос коротким.

Часть 1. Понимание того, как работает обучение.

В настоящий момент я предполагаю, что область Брока и область Вернике должны знать язык, и мышечная память с существующим фонетическим алфавитом будет строить речь. Акценты со временем образуются естественным путем ассимиляции фонетического алфавита.

areas

Используя Google, я обнаружил, что затенение речи потенциально может использоваться для ассимиляции фонетических символов. Мышечная память, с другой стороны, может легко тренироваться повторяющимися действиями. И это наиболее эффективно, если человеку 23-24 года и у него много непонятного времени на руке, так как потеря фокуса может значительно снизить эффективный градиент кривой обучения. Этот вид процедурной памяти , вероятно, может быть оптимизирован для очистки в памяти с заданным шаблоном сна .

Часть 2. Разработка модели поведения

  • Нахождение беглого динамика, акцент которого я хочу звучать.
  • Различение целевых акцентных фонем и телефонов.
  • Тренировка мышечной памяти для получения целевого акцента.

Часть 3: Нахождение свободного динамика, на котором я хочу звучать акцент.

Youtube - мощный бесплатный ресурс. Образец звука, который мне сложно выбрать: audio Someone Like You - Адель (обложка) в HD.

Меня не беспокоит, что это высокий женский голос.

Часть 4: Различение целевых акцентных фонем и телефонов.

Это не тривиальная задача - определить и оценить правильность разговорного телефона. И как правильно осязаемый текст говорит человек. На самом деле это кажется настолько сложным, что я не стану его автоматизировать и просто использую IPA в качестве базового уровня.

Вот первый псалом со словом ударение в американском IPA из приведенного выше примера аудио: IPA

Нарушение авторских прав не предусмотрено. И изображение создается с upodn (альтернатива: photransedit ).

Часть 5. Тренировка мышечной памяти для создания целевого акцента.

Хотя интересно просто подражать и архивировать синхронизацию, тогда я бы предпочел создать инструмент, который извлекает слова в виде аудиофайлов. Так что я могу использовать winamp или ipod, чтобы зацикливать и перемешивать слова, которые я хочу.

Я полагаю, что для этого я могу использовать MS Expression Encoder.

Вопрос

Если дан аудиофайл (например, в формате wav, размер <32 МБ) и его текстовый эквивалент (конечное количество слов, например, 2000), то как разбить его на несколько файлов, каждый из которых содержит 1 слово. Word может содержать некоторые лишние пробелы, и проверки границ могут быть одобрены пользователем. Если это не точно, то каков наилучший способ получить хорошую оценку границ слов. </p>

Главное намерение - сократить объем работы, которую я буду выполнять, если это будет сделано вручную.

Ответы [ 2 ]

1 голос
/ 15 марта 2012

Определение границ слов - чрезвычайно сложная задача!Я не знаю, рассматривали ли вы это подробнее, но см. Saffran et al., (1996). Сегментация слов: роль распределительных сигналов .Существует также много «корпусов» языкового производства для многих языков, поэтому вместо того, чтобы использовать нового человека, я бы изучил то, что уже было сделано в лингвистической литературе по обнаружению границ слов.

0 голосов
/ 25 апреля 2011

Прежде всего я бы преобразовал сигнал из временной области в частотную область, запустив над ним БПФ.Это может позволить вам согласовать определенные согласные звуки в вашем тексте с широкополосным шумом в FFT.Дело в том, что вы не пытаетесь сделать полное распознавание речи, просто найдите лучшее соответствие сигнала к тексту.(Я делал что-то похожее для подсветки изображения документа, когда был в универе - мне не нужно было прибегать к OCR, потому что у меня уже был текст).Я предполагаю, что поиск провалов в амплитуде не поможет вам так много, потому что некоторые слова сталкиваются друг с другом.

Вот как я бы подошел к нему с первой попытки:

  1. Проанализируйте текст / IPA для слов, которые начинаются с согласных, которые приводят к легко идентифицируемому шаблону в частотном спектре.
  2. начиная с высокого порогового значения, выявляйте экземпляры шаблона.
  3. Опускайте пороговое значение, пока не получите правильное количество экземпляров, и относительные расстояния между ними не будут соответствовать вашей оценке расстояния отtext.
  4. (если возможно, получите подтверждение пользователя о точках разделения здесь)
  5. Это должно дать вам набор коротких фраз и блоков спектра.
  6. Разделить эти блокив слова, используя другой метод обнаружения признаков.
  7. Продолжайте, пока у вас не останется только одно слово.

Я уверен, что это можно обобщить, но я бы попытался это сделать.

...