Я использую Speech To Text Уотсона .
Интересно, можно использовать метод recognizeMicrophone с speaker_labels.
recognizeMicrophone
speaker_labels