Я работаю над чем-то похожим в Java в приложении для распознавания речи.
Я бы порекомендовал использовать MFCC (требует вычисления FFT) для извлечения функций и нейронных сетей или какой-либо другой метод машинного обучения для обучения и распознавания. Вы обучаете NN функциям, извлеченным из эталонного файла WAV, точнее из последовательных равных отрезков / окон этого аудиофайла. Затем вы используете NN, чтобы определить, имеет ли другой файл, также разбитый на фрагменты, те же функции.
Это основная идея, которую вы можете разработать, чтобы усовершенствовать свои собственные спецификации или то, что вы хотите, чтобы ваше приложение делало.
Что касается библиотек в Objective C, я думаю, вы можете найти несколько для части обработки сигналов (FFT и тому подобное), а для части машинного обучения, я понятия не имею, что вы могли бы найти.
Что касается времени программирования, его сложно оценить, поскольку оно зависит от множества деталей. Я бы сказал где-то около недели, но это справедливая оценка.
пс: MFCC обозначает коэффициенты Mel-частоты: http://en.wikipedia.org/wiki/Mel-frequency_cepstrum