Ваш метод № 3 явно не эквивалентен двум другим, и это не способ решения проблемы (частично это видно и из более низкой точности).
Теперь, в теории , теории , ваши методы # 1 и # 2 должны дать примерно аналогичных результатов, что не далеко от случая, в соответствии с указанными вами значениями точности.
Ни один из двух методов не является недействительным , Возможное объяснение несколько более высокой точности # 1 состоит в том, что, хотя здесь вы фактически просто повторяете информацию, содержащуюся в одном канале x3, этот практически служит своего рода ансамблем ( усиливается из-за того, что соответствующие сверточные фильтры будут запускаться из разных случайных инициализаций); это приводит к большему количеству «подмоделей», способствующих получению, следовательно, к лучшей производительности, в соответствии с общими ожиданиями для ансамблей моделей. Конечно, вы должны проверить, что это так, запустив несколько экспериментов и взять среднюю точность для каждого метода (результаты одного эксперимента всегда могут отличаться просто из-за разных случайных инициализаций).
Правда, производительность CNN С одноканальными изображениями это довольно недооцененный предмет AFAIK. Продолжайте экспериментировать самостоятельно!
Время вывода каждого изображения, о котором вы сообщаете, согласуется с различными подходами: 1D свертки быстрее, чем 2D, и обработка одноканального изображения также быстрее, чем 3- Первый канал.