Я использовал 4-слойный CNN с активациями MFM для задачи классификации. Когда входной сигнал для CNN - CQT (преобразование константы q) + БПФ аудиосигнала, точность теста составляет около 55%. В отличие от этого, когда входной сигнал представляет собой спектрограмму, построенную с использованием тех же значений, которые были рассчитаны выше, точность теста составляет 91%. Есть мысли о том, почему это происходит?