AFAIK Параметр arguments global_work_size указывает количество рабочих элементов в каждом измерении NDRange, а local_work_size указывает количество рабочих элементов в каждом измерении рабочей группы.
Предполагается, что все рабочие элементы и рабочие группы должны работать параллельно, в то время как рабочие элементы в рабочей группе работают в режиме блокировки, разные рабочие группы будут выполнять разные механизмы SIMD, но они должны работать параллельно, если только не существует аппаратного ограничения для GPU в терминах количество доступных двигателей SIMD, ограничение планировщика волн / деформаций и т. д.