Я хочу прочитать текстовый файл и сохранить его в массиве. Затем я хочу передать массив с хоста на устройство и сохранить его в общей памяти. Я написал следующий код, но время выполнения было увеличено по сравнению с использованием глобальной памяти. Я не могу понять, в чем причина? Также было бы здорово, если бы кто-нибудь помог мне написать этот код с использованием постоянной памяти.
__global__ void deviceFunction(char *pBuffer,int pSize){
extern __shared__ char p[];
int i;
for(i=0;i<pSize;i++)}
p[i] = pBuffer[i];
}
}
int main(void){
cudaMalloc((void**)&pBuffer_device,sizeof(char)*pSize);
cudaMemcpy(pBuffer_device,pBuffer,sizeof(char)*pSize,cudaMemcpyHostTo Device);
kernel<<<BLOCK,THREAD>>>(pBuffer_device,pSize);
}