Мне нужно реализовать эффективную версию свертки изображений с неразделимыми ядрами (поэтому sdk в CUDA полезен только для примера FFT, но четко указано, что он отлично работает только для больших размеров ядра)
Помимо реализации с нуля, как мне кажется, мне нужно работать с матрицами и ядрами априори неизвестных размеров (они могут быть 10x10 как 20.000x20.000, я просто не могу предсказать это)
Каковы ваши предложения относительно примера FFT?(если это ваш лучший выбор, пожалуйста, дайте мне хорошую точку, чтобы начать выяснять, как это работает)
И для второго выбора (вручную выполняющего свертку самостоятельно), какие предложения по максимизации слияния памяти?