Ускорение условного заполнения огромных разреженных матриц - PullRequest
5 голосов
/ 23 августа 2011

Мне было интересно, есть ли способ ускорить (возможно, посредством векторизации?) Условное заполнение огромных разреженных матриц (например, ~ 1e10 x 1e10).Вот пример кода, где у меня есть вложенный цикл, и я заполняю разреженную матрицу, только если выполняется определенное условие:

% We are given the following cell arrays of the same size:
% all_arrays_1
% all_arrays_2
% all_mapping_arrays

N = 1e10; 

% The number of nnz (non-zeros) is unknown until the loop finishes
huge_sparse_matrix = sparse([],[],[],N,N);

n_iterations = numel(all_arrays_1);

for iteration=1:n_iterations

  array_1 = all_arrays_1{iteration};
  array_2 = all_arrays_2{iteration};

  mapping_array = all_mapping_arrays{iteration};

  n_elements_in_array_1 = numel(array_1);
  n_elements_in_array_2 = numel(array_2);

  for element_1 = 1:n_elements_in_array_1

    element_2     = mapping_array(element_1);

    % Sanity check:
    if element_2 <= n_elements_in_array_2
       item_1 = array_1(element_1);
       item_2 = array_2(element_2);      

       huge_sparse_matrix(item_1,item_2) = 1;
    end     
  end   
end

Я пытаюсь векторизовать вложенный цикл.Насколько я понимаю, заполнение разреженной матрицы элемент за элементом очень медленно, когда количество записей для заполнения велико (~ 100M).Мне нужно работать с разреженной матрицей, поскольку она имеет размеры в диапазоне 10 000 х 10 000 м.Однако этот способ заполнения разреженной матрицы в MATLAB очень медленный.

Правки:

Я обновил имена переменных, чтобы лучше отражать их природу.Нет вызовов функций.

Приложение:

Этот код строит матрицу смежности для огромного графа.Переменная all_mapping_arrays содержит массивы отображения (отношение смежности) между узлами графа в локальном представлении , поэтому мне нужны array_1 и array_2 для сопоставления смежности с глобальным представлением.

1 Ответ

4 голосов
/ 24 августа 2011

Я думаю, что это будет постепенное обновление разреженной матрицы, а не условное условие, основанное на цикле, которое будет замедлять процесс.

Когда вы добавляете новую запись в разреженную матрицу через что-то вроде A(i,j) = 1, обычно требуется, чтобы вся структура данных матрицы была переупакована. Это дорогая операция. Если вам интересно, MATLAB использует внутреннюю структуру данных CCS (хранилище сжатых столбцов), которая описана в разделе Структура данных здесь . Обратите внимание на утверждение:

Эта схема неэффективна для манипулирования матрицами одним элементом в время

Как правило, гораздо лучше (быстрее) накапливать ненулевые записи в матрице в виде набора триплетов, а затем сделать один вызов sparse. Например (предупреждение - скомпилированный мозгом код !!):

% Inputs:
% N 
% prev_array and  next_array
% n_labels_prev and n_labels_next
% mapping

% allocate space for matrix entries as a set of "triplets"
ii = zeros(N,1);
jj = zeros(N,1);
xx = zeros(N,1);
nn = 0;

for next_label_ix = 1:n_labels_next

    prev_label     = mapping(next_label_ix);

    if prev_label <= n_labels_prev
        prev_global_label = prev_array(prev_label);
        next_global_label = next_array(next_label_ix);   

        % reallocate triplets on demand
        if (nn + 1 > length(ii))
            ii = [ii; zeros(N,1)];
            jj = [jj; zeros(N,1)];
            xx = [xx; zeros(N,1)];
        end   

        % append a new triplet and increment counter
        ii(nn + 1) = next_global_label; % row index
        jj(nn + 1) = prev_global_label; % col index
        xx(nn + 1) = 1.0;               % coefficient
        nn = nn + 1;
    end     
end

% we may have over-alloacted our triplets, so trim the arrays
% based on our final counter
ii = ii(1:nn);
jj = jj(1:nn);
xx = xx(1:nn);

% just make a single call to "sparse" to pack the triplet data
% as a sparse matrix object
sp_graph_adj_global = sparse(ii,jj,xx,N,N); 

Я размещаю порциями N записей одновременно. Предполагая, что вы много знаете о структуре вашей матрицы, вы можете использовать лучшее значение здесь.

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...