Ошибка ARM GCC?Использует цепочки vldr вместо одной vldmia ... - PullRequest
6 голосов
/ 24 декабря 2010

Рассмотрим следующую NEON-оптимизированную функцию:

void mat44_multiply_neon(float32x4x4_t& result, const float32x4x4_t& a, const float32x4x4_t& b) {
    // Make sure "a" is mapped to registers in the d0-d15 range,
    // as requested by NEON multiply operations below:
    register float32x4_t a0 asm("q0") = a.val[0];
    register float32x4_t a1 asm("q1") = a.val[1];
    register float32x4_t a2 asm("q2") = a.val[2];
    register float32x4_t a3 asm("q3") = a.val[3];
    asm volatile (
    "\n\t# multiply two matrices...\n\t"
    "# result (%q0,%q1,%q2,%q3)  = first column of B (%q4) * first row of A (q0-q3)\n\t"
    "vmul.f32 %q0, %q4, %e8[0]\n\t"
    "vmul.f32 %q1, %q4, %e9[0]\n\t"
    "vmul.f32 %q2, %q4, %e10[0]\n\t"
    "vmul.f32 %q3, %q4, %e11[0]\n\t"
    "# result (%q0,%q1,%q2,%q3) += second column of B (%q5) * second row of A (q0-q3)\n\t"
    "vmla.f32 %q0, %q5, %e8[1]\n\t"
    "vmla.f32 %q1, %q5, %e9[1]\n\t"
    "vmla.f32 %q2, %q5, %e10[1]\n\t"
    "vmla.f32 %q3, %q5, %e11[1]\n\t"
    "# result (%q0,%q1,%q2,%q3) += third column of B (%q6) * third row of A (q0-q3)\n\t"
    "vmla.f32 %q0, %q6, %f8[0]\n\t"
    "vmla.f32 %q1, %q6, %f9[0]\n\t"
    "vmla.f32 %q2, %q6, %f10[0]\n\t"
    "vmla.f32 %q3, %q6, %f11[0]\n\t"
    "# result (%q0,%q1,%q2,%q3) += last column of B (%q7) * last row of A (q0-q3)\n\t"
    "vmla.f32 %q0, %q7, %f8[1]\n\t"
    "vmla.f32 %q1, %q7, %f9[1]\n\t"
    "vmla.f32 %q2, %q7, %f10[1]\n\t"
    "vmla.f32 %q3, %q7, %f11[1]\n\t\n\t"
    : "=&w"  (result.val[0]), "=&w"  (result.val[1]), "=&w"  (result.val[2]), "=&w" (result.val[3])
    : "w"   (b.val[0]),      "w"   (b.val[1]),      "w"   (b.val[2]),      "w"   (b.val[3]),
      "w"   (a0),            "w"   (a1),            "w"   (a2),            "w"   (a3)
    :
    );
}

Почему GCC 4.5 генерирует эту мерзость для загрузки первой матрицы:

vldmia  r1, {d0-d1}
vldr    d2, [r1, #16]
vldr    d3, [r1, #24]
vldr    d4, [r1, #32]
vldr    d5, [r1, #40]
vldr    d6, [r1, #48]
vldr    d7, [r1, #56]

… вместо просто:

vldmia  r1, {q0-q3}

...

опции, которые я использую:

arm-none-eabi-gcc-4.5.1 -x c++ -march=armv7-a -mcpu=cortex-a8 -mfpu=neon -mfloat-abi=softfp -O3 -ffast-math -fgcse-las -funsafe-loop-optimizations -fsee -fomit-frame-pointer -fstrict-aliasing -ftree-vectorize

Обратите внимание, что при использовании предоставленного iPhoneOS компилятора получается то же самое:

/Developer/Platforms/iPhoneOS.platform/Developer/usr/bin/gcc-4.2 -x c++ -arch armv7 -mcpu=cortex-a8 -mfpu=neon -mfloat-abi=softfp -O3 -ffast-math -fgcse-las -funsafe-loop-optimizations -fsee -fomit-frame-pointer -fstrict-aliasing -ftree-vectorize

Ответы [ 3 ]

6 голосов
/ 02 января 2011

Простой ответ:

Компилятор GCC в настоящее время не очень хорош для генерации кода ARM.Если вы посмотрите близко к другому коду, вы обнаружите, что GCC почти никогда не организует регистр, что он может использовать несколько загрузок / хранилищ регистров, кроме жестко закодированных мест, таких как функция prolog / epilog и встроенный memcpy.доходит до использования неоновых инструкций, код становится еще хуже.Это как-то связано с тем, как работает устройство NEON: Вы можете рассматривать пары регистров как четверные или двойные слова.Это (насколько я знаю) уникальная особенность использования регистров в поддерживаемых GCC архитектурах.Поэтому генератор кода не генерирует оптимальный код во всех случаях.

Кстати: пока я в этом: GCC даже не подозревает, что использование «свободной» функции смещения ствола на Cortex-A8 имеет важное значениевлияние на планирование регистра, и GCC понимает это в основном неправильно.

1 голос
/ 17 июня 2011

Это не относится к предоставленному вами фрагменту, но в реальном коде NEON разбиение vld1 на 128-битные или, возможно, 256-битные блоки может привести к повышению производительности кода.Это связано с тем, что NEON загружает и сохраняет (и переставляет) две проблемы с другими инструкциями NEON, но двойная выдача может происходить только в первом или последнем цикле многоцикловой инструкции.Если выровнены, вы можете получить 128-битную загрузку за 1 цикл и 256-битную за 2 цикла.

1 голос
/ 02 января 2011

PPC имеет аналогичную инструкцию (ldmw и stmw), и на некоторых архитектурах она выполняется на самом деле медленнее, чем эквивалентная серия загрузок / хранилищ. Очевидно, вы можете обойти это против пространства кэша команд или других соображений. Вам следует выполнить тестирование на целевой платформе ARM, чтобы выяснить, действительно ли gcc «не прав».

...