Я думаю, что вы, возможно, используете неправильный узел ввода, 'wav_data' - это операция DecodeWav, которая принимает содержимое файла .wav, но вы, вероятно, захотите передать необработанные примеры данных, захваченных с микрофона, который будет идти в 'decoded_sample_data' вместо. Вот аргументы, которые я обычно использую toco в этом случае:
--input_shapes=16000,1:1 --input_arrays=decoded_sample_data,decoded_sample_data:1