Question

Мне нужно получить квадратный корень для каждого элемента матрицы (который в основном представляет собой вектор значений с плавающей запятой один раз в памяти), используя CUDA.

Размеры матрицы не известны «a priori» и могут варьироваться [2-20.000].

Мне было интересно: я мог бы использовать (как предложил здесь Джонатан) одно измерение блока, например:

int thread_id = blockDim.x * block_id + threadIdx.x;

и проверьте, есть ли thread_id ниже, чем строки * столбцов ... это довольно просто и прямо.

Но есть ли какая-то конкретная причина производительности, почему я должен использовать два (или даже три) измерения сетки блока для выполнения такого вычисления (имея в виду, что у меня есть матрица в конце концов) вместо одного?

Я думаю о проблемах коалесценции, таких как последовательное чтение всех потоков значениями

Brian Kretzler · Answer 1 · 28 марта 2011

Размеры существуют только для удобства, внутренне все линейно, поэтому не было бы никакого преимущества с точки зрения эффективности в любом случае. Избегать вычисления (надуманного) линейного индекса, как вы показали выше, может показаться немного быстрее, но не будет никакой разницы в том, как сливаются потоки.

CUDA: больше размеров для блока или только один?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

CUDA: больше размеров для блока или только один?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов