Я предполагаю, что это связано с тем, что вы используете очень маленький batch_size; в этом случае стоимость распределения градиентов / вычислений по двум графическим процессорам и их извлечения (а также распределения данных между процессорами и графическими процессорами (2)) перевешивает преимущество параллельного времени, которое вы можете получить, по сравнению с последовательным обучением (на 1 графическом процессоре) .
Ожидайте увидеть большую разницу, например, для размера партии 8/16.