Я провел некоторое исследование по этому вопросу около 10 лет назад в исследовательской лаборатории, так что я, возможно, немного устарел!В то время не было никакого стандарта для всего процесса.Вы должны использовать Java sound API для записи и воспроизведения, а затем любой сетевой протокол, который вы хотите отправить.
Если человек слушает, то используйте что-то схорошее сжатие - что-то вроде потокового мультимедиа в Java Media Framework .Если вы хотите использовать распознавание речи на данных, вам, вероятно, понадобится что-то более высокого качества и ближе к необработанным данным, и, возможно, стоит взглянуть на Java Speech API .