В настоящее время я читаю реализацию tf.keras.layers.LayerNormalization , и мне интересно, почему в его комментариях говорится: «Эта объединенная операция требует, чтобы измененные входы были NCHW»
Когда я загляните в nn.fused_batch_norm
, я считаю, что он поддерживает как NCHW, так и NHW C, так зачем форсировать формат NCHW при использовании объединенного режима?