A относительно простой способ сделать это - использовать БПФ (быстрое преобразование Фурье), чтобы преобразовать данные временной области исходного файла WAV в данные частотной области (в которой каждое значение в вашем преобразованном массив представляет относительную величину / интенсивность определенной полосы частот).
Если один и тот же человек произносит одно и то же слово дважды, результирующие данные во временной области, тем не менее, будут по-прежнему сильно отличаться в числовом выражении в двух файлах WAV. Преобразование обоих файлов WAV в частотную область (с использованием одного и того же размера окна FFT для обоих, даже если два файла имеют слегка различную длину) приведет к созданию частотных массивов, которые намного больше похожи друг на друга, чем исходные файлы WAV. 1005 *
К сожалению, я не смог найти библиотек FFT специально для Android. Вот вопрос, который ссылается на некоторые библиотеки на основе Java:
Библиотека обработки сигналов на Java?