Обработка изображений на GPU с помощью объектов OpenGL, GLSL и Framebuffer - вопросы о производительности - PullRequest
7 голосов
/ 31 мая 2011

Я был включен в проект, который обрабатывает изображения на CPU и в настоящее время расширяется для использования GPU, а также , при этом предполагается, что в основном будет использоваться GPU, если это окажется быстрее, и обработать процессорную часть как запасной вариант.Я новичок в программировании на GPU и у меня есть несколько вопросов, аспекты которых я видел в других темах, но не смог найти ответы на свои вопросы.

  1. Если мыначинали с нуля, какую технологию вы бы порекомендовали для обработки изображений на GPU, чтобы добиться оптимального сочетания покрытия (как при поддержке на клиентских машинах) и скорости?Мы пошли по пути OpenGL + GLSL , чтобы охватить как можно больше видеокарт, и мне любопытно, является ли это оптимальным выбором.Что бы вы сказали о OpenCL , например?

  2. Учитывая, что мы уже начали реализацию модуля GPU с OpenGL и шейдерами, я хотел бы получить представление оделаем ли мы это наиболее эффективным способом.

    Мы используем Framebuffer Objects для чтения и рендеринга в текстуры.В большинстве случаев читаемая область и записываемая область имеют одинаковый размер, но текстуры , из которых мы читаем и пишем, могут иметь произвольный размер .Другими словами, мы просим FBO прочитать подрайон того, что считается его входной текстурой, и записать в подрайон того, что считается его выходной текстурой.Для этого выходная текстура «присоединяется» к объекту Framebuffer (с помощью glFramebufferTexture2DEXT ()), а входная - нет.Это требует, чтобы текстуры были «прикреплены» и «отсоединены», так как они меняют свои роли (т. Е. Текстура может быть изначально использована для записи, но на следующем проходе она может использоваться как вход для чтения).

    Вместо того, чтобы заставить входы и выходы иметь одинаковый размер и всегда иметь их присоединенные к FBO, имеет больше смысла , с точки зрения эффективного использования FBO и достижения лучшей производительности или делаетто, что у нас уже звучит достаточно хорошо?

  3. Первоначально проект был спроектирован для рендеринга на процессоре, поэтому были приняты меры к тому, чтобы запросы обрабатывались как можно меньше пикселей за раз,Таким образом, всякий раз, когда происходит перемещение мыши, например, только очень маленькая область вокруг курсора будет перерисована.Или при рендеринге всего изображения, которое покрывает экран, оно может быть нарезано на полосы для визуализации и отображения один за другим. Имеет ли смысл такая фрагментация при рендеринге на графическом процессоре? Каков наилучший способ определения оптимального размера для запроса рендеринга (т. Е. Выходной текстуры), чтобы графический процессор использовался полностью?

  4. Какие соображения будут при профилировании кода (для производительности), который выполняется на GPU ?(Чтобы сравнить это с рендерингом на процессоре.) Является ли измерение полезного времени, которое требуется для возврата (и вызов glFinish (), чтобы убедиться, что команды выполнены на GPU), полезно или есть что-то еще, о чем стоит помнить?

Большое спасибо!


Я думаю, мне нужно добавить пару деталей, чтобы уточнить мои вопросы:

2) На самом деле мы не используем одну и ту же текстуру в качестве цели рендеринга и источника чтения одновременно.Только когда рендеринг закончен, «выходная» текстура становится «входной», т. Е. Когда результат задания рендеринга необходимо прочитать для другого прохода или как вход для другого фильтра.

Что меня беспокоилос тем, будут ли прикрепленные текстуры обрабатываться по-разному, например, будет ли FBO или шейдер иметь более быстрый доступ к ним по сравнению с тем, когда они не присоединены.

Мое первоначальное (хотя, возможно, и не совсем точное) профилирование не показало существенных различий, поэтому я полагаю, что мы не совершаем такого большого количества преступления производительности. Я сделаю больше тестов с предложенными вами функциями синхронизации - они выглядят полезными.

3) Мне было интересно, будет ли медленнее или быстрее разделить картинку на мелкие кусочки (скажем, размером 100 x 100 пикселей для перемещения мыши) и запросить их рендеринг по одному. или это не имеет значения) на GPU, который потенциально может парализовать большую часть работы. У меня есть ощущение, что это может быть чрезмерно оптимистичной оптимизацией, которая в лучшем случае не принесет нам большой пользы, а в худшем может повредить производительности, поэтому я задавался вопросом, существует ли формальный способ определения конкретной реализации. В конце концов, я полагаю, что мы будем использовать то, что кажется разумным для разных видеокарт.

1 Ответ

4 голосов
/ 31 мая 2011

Я не слишком разбираюсь в вашем проекте, но постараюсь дать несколько простых ответов, возможно, другие могут быть более подробными:

  1. До тех пор, пока вы выполняете обычные задачи «изменение-вывод-пикселей-используя-некоторые-входные-пиксели» из обработки изображений без особой синхронизации, у вас все будет в порядке с обычным размером экрана с квадратом с фрагментом Шейдерный подход (извините за эти странные фразы). И вы получаете фильтрацию изображений (например, билинейную интерполяцию) бесплатно (я не знаю, поддерживают ли CUDA или OpenCL фильтрацию изображений, хотя они должны это делать, поскольку аппаратное обеспечение в любом случае есть).

  2. Вы не можете читать текстуру, которая все равно используется в качестве цели рендеринга (хотя я думаю, что они все еще могут быть прикреплены), поэтому ваш текущий подход должен быть в порядке. Требование, чтобы они были одинакового размера только для того, чтобы они были прикреплены к FBO, очень сильно ограничило бы гибкость (я думаю, что стоимость присоединения пренебрежимо мала).

  3. Оптимальный размер действительно зависит от реализации, но ограничение рендеринга диапазона и, следовательно, вызовы фрагментного шейдера должны всегда быть хорошей идеей, если эти ограничивающие вычисления не длятся слишком долго (простые ограничивающие блоки с glScissor я думаю, что вы - ваш друг или просто используете меньший, чем экран, размер квадрата).

  4. Существуют и другие, возможно, гораздо более точные способы синхронизации GPU (например, посмотрите расширение GL_ARB_timer_query). Для профилирования и отладки вы можете использовать общие профилировщики и отладчики графических процессоров, такие как gDEBugger и т.п., я думаю. Хотя у меня нет большого опыта работы с такими инструментами.

РЕДАКТИРОВАТЬ: К вам отредактированные вопросы:

  1. Я действительно сомневаюсь, что прикрепленная текстура читается быстрее, чем неприкрепленная. Единственное, что вы получите, это то, что вам не нужно повторно прикреплять его, когда вы хотите в него записать, но, как я уже сказал, эта стоимость должна быть незначительной, если таковая имеется.

  2. Я бы не стал слишком оптимизировать это, разбив его на слишком мелкие кусочки. Как я уже сказал, при работе с GL вы можете использовать тест ножниц и трафарет для таких вещей. Но все это должно быть проверено, я думаю, чтобы быть уверенным в приросте производительности. Я не знаю, что вы имеете в виду при перемещении мыши, так как, когда вы просто перемещаете мышь над окном, оконная система обычно заботится о том, чтобы визуализировать курсор как наложение, поэтому вам не нужно снова перерисовывать базовое изображение, как оно есть. Я думаю, что буферизованная оконной системой.

...