Для задач классификации изображений обычно представляющий интерес объект расположен в центре изображения. Таким образом, обычной практикой (для умозаключения) является центральная обрезка изображения, срезающая некоторую границу (однако в общем случае это не применимо, поскольку точная предварительная обработка сильно зависит от того, как обучена сеть).
Что касается «почему обрезка и не изменение размера напрямую», это побочный продукт увеличения данных во время обучения: случайное кадрирование изображения является очень распространенной техникой увеличения данных. Во время вывода изменение размера всего изображения до входного размера вместо применения обрезки влияет на масштаб объектов на изображении, что отрицательно влияет на производительность сети (поскольку вы оцениваете данные, которые имеют «формат», отличный от тот, на котором вы тренировались, и CNN не являются масштабно-инвариантными).