Text-to-Speech - большая, интересная проблема.
Мне кажется, однако, что у вас есть очень специфическое требование. У вас есть словарный запас около 12 слов, если я правильно понимаю. Нет никакого способа, чтобы обобщенное решение tts рекомендовалось для этой области словаря. Использование записанных звуков кажется гораздо лучшим решением.
Я не знаю порог количества слов, где рекомендуется TTS. Но это выше, чем 12 слов.