- Нужно ли мне разрезать свои предложения на слова или просто использовать предложения для моделей поездов HMM?
Теоретически вам просто нужны предложения и фонемы. Но наличие отдельных слов может быть полезно для вашей модели (это увеличивает размер ваших тренировочных данных)
- Нужен ли набор данных фонем для поезда? если да, нужно ли тренировать его, используя HMM? если нет, то как моя программа распознает фонемы для ввода предсказания HMM?
Вам нужны фонемы, иначе вашей модели будет слишком сложно найти правильную сегментацию фонем, если у нее нет примера изолированных фонем. Сначала вы должны обучить свои состояния HMM на изолированных фонемах, а затем добавить остальные данные. Если у вас достаточно данных, ваша модель, возможно, сможет учиться без отдельных примеров фонем, но я бы не стал этого делать.
- Какие шаги я должен сделать в первую очередь?
Создайте свои примеры фонем и используйте их для обучения простой модели HMM, в которой вы не моделируете переход между фонемами. Как только в ваших скрытых состояниях появится некоторая информация о фонемах, вы можете продолжить обучение по отдельным словам и предложениям.