Question

как узнать, будет ли мой последовательный код работать быстрее, если я использую графический процессор?я знаю, что это зависит от многих вещей ... то есть, если код может быть парализован с помощью SMID и все эти вещи ... но какие соображения я должен принять во внимание, чтобы быть "уверенным", что я получу скорость?должен ли алгоритм быть смущающе параллельным?поэтому я не буду пытаться попробовать GPU, если части алгоритма не могут быть распараллелены?я должен принять во внимание, сколько памяти требуется для ввода образца?

Каковы "спецификации" последовательного кода, которые заставили бы его работать быстрее на GPU?может сложный алгоритм набрать скорость на GPU?я не хочу тратить время и пытаться кодировать свой алгоритм на графическом процессоре, и я на 100% уверен, что скорость будет увеличена .... это моя проблема ....

я думаю, что мой алгоритмможно распараллелить на GPU ... стоило бы попробовать?

mattgattis · Answer 1 · 13 апреля 2011

Это зависит от двух факторов:

1) Ускорение работы множества ядер, выполняющих операции с плавающей запятой

Это зависит от присущего распараллеливания выполняемых вами операций, числаядер на вашем графическом процессоре и различия в тактовых частотах между вашим процессором и графическим процессором.

2) Затраты на передачу данных назад и вперед между основной памятью и памятью графического процессора.

Этов основном зависит от «пропускной способности памяти» вашего конкретного графического процессора и значительно уменьшается из-за архитектуры Sandy Bridge, в которой процессор и графический процессор находятся на одном кристалле.В более старых архитектурах некоторые операции, такие как матричное умножение, когда внутренние размеры невелики, не улучшаются.Это связано с тем, что для передачи внутренних векторов назад и вперед по системной шине требуется больше времени, чем для расстановки векторов на центральном процессоре.

К сожалению, эти два фактора трудно оценить, и нет способа«знать», не пытаясь это.Если вы в настоящее время используете BLAS для своих операций SIMD, заменить CUBLAS на тот же API-интерфейс достаточно просто, за исключением того, что он передает операции в графический процессор для выполнения.

rOrlig · Answer 2 · 18 апреля 2011

При поиске параллельного решения обычно задайте себе вопросы

Количество данных у вас есть.
Количество вычислений с плавающей запятой, которое у вас есть.
Насколько сложен ваш алгоритм, то есть условия и ветви в алгоритме. Есть ли локализация данных?
какое ускорение требуется?
Это вычисления в реальном времени или нет?
Существуют ли альтернативные алгоритмы (но, может быть, они не самый эффективный последовательный алгоритм)?
К какому типу sw / hw у вас есть доступ.

В зависимости от ответов, которые вы ищете, вы можете использовать GPGPU, кластерные вычисления или распределенные вычисления или комбинацию GPU и кластерных / распределенных машин.

Если бы вы могли поделиться любой информацией о вашем алгоритме и размере данных, то было бы легче комментировать.

nmichaels · Answer 3 · 13 апреля 2011

Обычный код C может быть преобразован в CUDA очень легко. Если сильные нападающие в профиле вашего алгоритма могут быть распараллелены, попробуйте и посмотрите, поможет ли это.

следует использовать GPU?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

следует использовать GPU?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов