Question

Короче говоря, я пытаюсь вызвать общую библиотеку из python, а точнее из numpy. Общая библиотека реализована в C с использованием инструкций sse2. Включая оптимизацию, то есть собирая библиотеку с -O2 или -O1, я сталкиваюсь со странными ошибками при вызове в общую библиотеку через ctypes. Отключая оптимизацию (-O0), все работает как положено, как в случае прямого подключения библиотеки к c-программе (оптимизировано или нет). В приложении вы найдете отрывок, который демонстрирует ограниченное поведение в моей системе. При включенной оптимизации gdb сообщает об ошибке в __builtin_ia32_loadupd (__P) по адресу emmintrin.h: 113. Значение __P сообщается как оптимизированное.

test.c:

#include <emmintrin.h>
#include <complex.h>
void test(const int m, const double* x, double complex* y) {

    int i;
    __m128d _f, _x, _b;
    double complex f __attribute__( (aligned(16)) );
    double complex b __attribute__( (aligned(16)) );
    __m128d* _p;

    b = 1;
    _b = _mm_loadu_pd( (double *) &b );

    _p = (__m128d*) y;

    for(i=0; i<m; ++i) {
        f = cexp(-I*x[i]);
        _f = _mm_loadu_pd( (double *) &f );
        _x = _mm_loadu_pd( (double *) &x[i] );      
        _f = _mm_shuffle_pd(_f, _f, 1);
        *_p = _mm_add_pd(*_p, _f);
        *_p = _mm_add_pd(*_p, _x); 
        *_p = _mm_mul_pd(*_p,_b);
        _p++;
    }
    return;
}

Флаги компилятора: gcc -o libtest.so -shared -std = c99 -msse2 -fPIC -O2 -g -lm test.c

test.py:

import numpy as np
import os

def zerovec_aligned(nr, dtype=np.float64, boundary=16):
    '''Create an aligned array of zeros.
    '''
    size = nr * np.dtype(dtype).itemsize
    tmp = np.zeros(size + boundary, dtype=np.uint8)
    address = tmp.__array_interface__['data'][0]
    offset = boundary - address % boundary
    return tmp[offset:offset + size].view(dtype=dtype)


lib = np.ctypeslib.load_library('libtest', '.' )
lib.test.restype = None
lib.test.argtypes = [np.ctypeslib.ctypes.c_int,
                     np.ctypeslib.ndpointer(np.float64, flags=('C', 'A') ),
                     np.ctypeslib.ndpointer(np.complex128, flags=('C', 'A', 'W') )]


n = 13
y = zerovec_aligned(n, dtype=np.complex128)
x = np.ones(n, dtype=np.float64)
# x = zerovec_aligned(n, dtype=np.float64)
# x[:] = 1.

lib.test(n,x,y)

Проверка вызова из C работает как ожидалось:

call_from_c.c:

#include <stdio.h>
#include <complex.h>
#include <stdlib.h>
#include <emmintrin.h>

void test(const int m, const double* x, double complex* y);

int main() {

    int i; 
    const int n = 11;
    double complex *y = (double complex*) _mm_malloc(n*sizeof(double complex), 16);
    double *x = (double *) malloc(n*sizeof(double));
    for(i=0; i<n; ++i) {
        x[i] = 1;
        y[i] = 0;
    }

    test(n, x, y);
    for(i=0; i<n; ++i)
            printf("[%f %f]\n", creal(y[i]), cimag(y[i]));

    return 1;

}

Компиляция и вызов:
gcc -std = c99 -otestc -msse2 -L. -ltest call_from_c.c
экспорт LD_LIBRARY_PATH = $ {LD_LIBRARY_PATH}:.
./testc
... работает.

Моя система:

Ubuntu Linux i686 2.6.31-22-generic
Компилятор: gcc (Ubuntu 4.4.1-4ubuntu9)
Python: Python 2.6.4 (r264: 75706, 7 декабря 2009 г., 18:45:15) [GCC 4.4.1]
Numpy: 1.4.0

Я принял положения (см. Код Python), что y выравнивается, и выравнивание x не должно иметь значения (я думаю, что явное выравнивание x не решает проблему, хотя).

Обратите внимание, что я использую _mm_loadu_pd вместо _mm_load_pd при загрузке b и f. Для версии только для C _mm_load_pd работает (как и ожидалось). Однако при вызове функции через ctypes, используя _mm_load_pd всегда segfaults (независимо от оптимизации).

Я несколько дней пытался решить эту проблему безуспешно ... и я на грани избиения моего монитора до смерти. Любой вход приветствуется. Daniel

dnaq · Answer 1 · 21 июня 2011

Меня только что укусила попытка вызвать некоторый SSE-код из python, проблема в том, что GCC хочет предположить, что стек выровнен по 16-байтовым границам (самый большой собственный тип в архитектуре, то естьSSE-типы) и рассчитывает все смещения с этим допущением.Когда это предположение ложно, инструкции SSE будут перехвачены.

Ответ, по-видимому, заключается в компиляции с

gcc -mstackrealign

, который изменяет пролог функции, чтобы всегда выравнивать стек по 16 байтов.

shurik · Answer 2 · 29 августа 2010

Попробуйте собрать ваше расширение, используя систему numpy build, чтобы уменьшить потенциальные различия cflags / ldflags: http://projects.scipy.org/numpy/wiki/NumpySconsExtExamples

sundae_startups · Answer 3 · 28 августа 2010

Вы пробовали обновить до Numpy 1.5.0b2.Просто выполните следующее (но будьте осторожны, это может сломать другие вещи (вам придется перекомпилировать весь pyrex):

sudo easy_install -U numpy

У меня были похожие проблемы с ctypes, когда я пытался использовать H5PY (мне пришлосьперекомпилируйте .deb для получения последней версии numpy), а также возникли серьезные проблемы с weave, которые были исправлены в последнем обновлении.

NumPy вызывая sse2 через ctypes

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

NumPy вызывая sse2 через ctypes

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы