Я пытаюсь оптимизировать матрично-матричное умножение с использованием тайлинга.Проблема, с которой я сталкиваюсь, заключается в том, как умножение может быть выполнено таким образом, когда n не кратно размеру блока.Например, в матрице 7 x 7 нет подходящего размера блока, который можно было бы равномерно разделить на 7. Итак, как я могу, например, использовать размер блока 4 и получить соответствующие вычисления?