Причина, по которой стоит ядро квадратного размера, заключается в том, что вы вообще не представляете, какую ориентацию будут иметь изученные функции. Таким образом, вы не хотите ограничивать сеть. Оптимальной формой для фильтра будет круг, поэтому он может изучить любой объект с произвольной ориентацией внутри некоторого региона с заданным радиусом. Поскольку это нереально из-за проблем с реализацией квадрата, это следующая лучшая фигура.
Если вы знаете, например, что все изученные функции будут иметь отношение 1x3 (heightxwidth), вы можете использовать размер ядра, например 2x6. Но ты просто не знаешь этого. Даже если вы скажете, что объекты, которые вы хотите обнаружить / классифицировать, выглядят так, это не означает, что сеть научится их идентифицировать. Преимущество состоит в том, что вы можете позволить сети изучать функции, и, следовательно, вы должны ограничить это как можно меньше.
Но я не хочу вас обескураживать. Глубокое обучение - это много экспериментов, проб и ошибок. Так что просто попробуйте и убедитесь сами. Может быть, для какой-то проблемы это на самом деле работает лучше, кто знает.