То, что я закончил, было:
num_frames = int(samplerate / (1000 / ms_to_cut))
start_frame = random.randint(buffer, len(audio_array) - num_frames - buffer)
incomplete_audio_array = audio_array
incomplete_audio_array[start_frame:start_frame + num_frames] = 0