Измените свой оператор if на (s >= 1.0 || s == 0.0)
. Еще лучше, используйте break
, как показано в следующем примере, для SIMD-гауссовского случайного числа, возвращающего комплексную пару (u, v). При этом используется генератор случайных чисел 1005 * *1003* Мерсена. Если вам нужно только одно действительное случайное число, верните только u
и сохраните v
для следующего прохода.
inline static void randn(double *u, double *v)
{
double s, x, y; // SIMD Marsaglia polar version for complex u and v
while (1){
x = dsfmt_genrand_close_open(&dsfmt) - 1.;
y = dsfmt_genrand_close_open(&dsfmt) - 1.;
s = x*x + y*y;
if (s < 1) break;
}
s = sqrt(-2.0*log(s)/s);
*u = x*s; *v = y*s;
return;
}
Этот алгоритм на удивление быстр. Время выполнения для вычисления двух случайных чисел (u, v) для четырех разных гауссовских генераторов случайных чисел:
Times for delivering two Gaussian numbers (u + iv)
i7-2600K @ 4GHz, gcc -Wall -Ofast -msse2 ..
gsl_ziggurat = 20.3 (ns)
Box-Muller = 78.8 (ns)
Box-Muller with fast_sin fast_cos = 28.1 (ns)
SIMD Marsaglia polar = 35.0 (ns)
Полиномиальные процедуры fast_sin и fast_cos Чарльза К. Гарретта ускоряют вычисления Бокса-Мюллера в 2,9 раза, используя вложенную полиномиальную реализацию cos () и sin (). SIMD Box Muller и полярные алгоритмы, безусловно, конкурентоспособны. Также их можно легко распараллелить. Используя gcc -Ofast -S, дамп кода сборки показывает, что квадратный корень - это SIMD SSE2: sqrt -> sqrtsd% xmm0,% xmm0
Комментарий: действительно сложно и сложно получить точную синхронизацию с gcc5, но я думаю, что все в порядке: по состоянию на 3/3/2016: DLW
[1] Ссылка по теме: c возвращение указателя массива malloc в cython
[2] Сравнение алгоритмов, но не обязательно для SIMD-версий: http://www.doc.ic.ac.uk/~wl/papers/07/csur07dt.pdf
[3] Чарльз К. Гарретт: http://krisgarrett.net/papers/l2approx.pdf