Вы можете получить голосовой ввод в виде строки с атрибутом высказывания последнего результата ( Спецификация VoiceXML )
Однако это не ваша проблема. Вам нужна открытая грамматика или система, которая может обрабатывать 100 000 записей. Это артефакт механизма распознавания, а не язык VoiceXML. Теоретически, вы можете построить грамматику SRGS 100K. На практике это, вероятно, слишком много, если все они являются уникальными входными данными без более четкого определения. Вы можете сделать это с помощью родных грамматик с такими механизмами, как Nuance, со статическим списком или записями или статистической языковой моделью, состоящей из компонентов элементов (при условии, что они имеют общие компоненты).
Вы можете посмотреть на диктофоны. Я не думаю, что видел какие-либо приложения к платформам VoiceXML, так как они обычно не очень хорошо выровнены с обычными вариантами использования VoiceXML, и большинству механизмов диктовки требуется обучение и регулярные структуры предложений для полной идентификации ввода.