Я экспериментирую с MATLAB SPDM. Однако мне нужно решить следующую проблему:
- Я использую довольно длинный алгоритм, и я хотел бы сохранить прогресс на этом пути в случае отключения питания, отсоединения сетевого шнура или ошибки памяти.
- Цикл содержит 144 итерации, каждая из которых занимает около 30 минут => 72 часа Много проблем может возникнуть в этом интервале.
Конечно, на моей машине есть набор инструментов для распределенных вычислений. Компьютер имеет 4 физических ядра. Я запускаю MATLAB R2016a.
- Я действительно не хочу использовать цикл parfor, потому что я объединяю результаты и имею зависимость между итерациями. Я думаю, что SPMD - лучший выбор для того, что я хочу сделать.
Я постараюсь описать то, что я хочу, как можно лучше:
Я хочу иметь возможность сохранять на заданной итерации цикла результаты до сих пор, и я хочу сохранить результаты по рабочим.
Ниже приведен минимальный (не) рабочий пример. Последние четыре строки должны быть помещены в другой файл .m. Эта функция, вызываемая внутри цикла parfor, позволяет сохранять промежуточные итерации. Он работает правильно в других программах, которые я использую. Ошибка в строке 45 (output_save
). Так или иначе, я хотел бы «вытянуть» составной объект в «обычный» объект (ячейка / структура).
Я догадываюсь, что я не совсем понимаю, как работают составные объекты и, в особенности, как их можно сохранять в «обычные» объекты (ячейки, структуры и т. Д.).
% SPMD MWE
% Clear necessary things
clear output output2 output_temp iter kk
% Useful thing that will be used later on
Rorder=perms(1:4);
% Stem of the file to save the data to
stem='MWE_MATLAB_spmd';
% Create empty cells where the results of the kk loop will be stored
output1{1,1}=[];
output2{1,2}=[];
% Start the parpool
poolobj=gcp;
% Define which worker/lab will do which iteration
iterperworker=ceil(size(Rorder,1)/poolobj.NumWorkers);
for i=1:poolobj.NumWorkers
if i<poolobj.NumWorkers
itertodo{1,i}=1+(iterperworker)*(i-1):iterperworker*i;
else
itertodo{1,i}=1+(iterperworker)*(i-1):size(Rorder,1);
end
end
%Start the spmd
% try
spmd
iter=1;
for kk=itertodo{1,labindex}
% Print which iteration is done at the moment
fprintf('\n');
fprintf('Ordering %d/%d \r',kk,size(Rorder,1));
for j=1:size(Rorder,2)
output_temp(1,j)=Rorder(kk,j).^j; % just to populate a structure
end
output.output1{1,1}=cat(2,output.output1{1,1},output_temp); % Concatenate the results
output.output2{1,2}=cat(2,output.output1{1,2},0.5*output_temp); % Concatenate the results
labindex_save=labindex;
if mod(iter,2)==0
output2.output=output; % manually put output in a structure
dosave(stem,labindex_save,output2); % Calls the function that allows me to save in parallel computing
end
iter=iter+1;
end
end
% catch me
% end
% Function to paste in another m-file
% function dosave(stem,i,vars)
% save(sprintf([stem '%d.mat'],i),'-struct','vars')
% end