3-дневный скользящий корреляционный расчет в MATLAB - PullRequest
0 голосов
/ 13 июня 2011

Мне нужно рассчитать 3-дневную корреляцию.Пример матрицы приведен ниже.Моя проблема в том, что идентификаторы не могут быть во вселенной каждый день.Например, AAPL всегда может быть во вселенной, но компания - CCL может быть в моей вселенной всего 2 дня.Я был бы признателен за векторизованное решение.Возможно, мне придется использовать структуры / accumarray и т. Д., Поскольку размер корреляционной матрицы может варьироваться.

% col1 = tradingDates, col2 = companyID_asInts, col3 = VALUE_forCorrelation

rawdata = [ ...

    734614 1 0.5; 
    734614 2 0.4; 
    734614 3 0.1; 

    734615 1 0.6; 
    734615 2 0.4; 
    734615 3 0.2; 
    734615 4 0.5; 
    734615 5 0.12;

    734618 1 0.11; 
    734618 2 0.9; 
    734618 3 0.2; 
    734618 4 0.1; 
    734618 5 0.33;
    734618 6 0.55; 

    734619 2 0.11; 
    734619 3 0.45; 
    734619 4 0.1; 
    734619 5 0.6; 
    734619 6 0.5;

    734620 5 0.1; 
    734620 6 0.3] ; 

'3-дневная корреляция':

% 734614 & 734615 corr is ignored as this is a 3-day corr

% 734618_corr = corrcoef(IDs 1,2,3 values are used. ID 4,5,6 is ignored) -> 3X3 matrix

% 734619_corr = corrcoef(IDs 2,3,4,5 values are used. ID 1,6 is ignored) -> 3X4 matrix

% 734620_corr = corrcoef(IDs 5,6 values are used. ID 1,2,3,4 is ignored) -> 3X2 matrix

Оболочки реальных данныхВселенная Russel1000 с 1995-2011 и имеет более 4,1 миллиона строк.Желаемая корреляция в течение 20-дневного периода.

1 Ответ

1 голос
/ 13 июня 2011

Я бы не стал пытаться получить здесь векторизованное решение: JIT-компилятор MATLAB означает, что циклы часто могут быть такими же быстрыми в последних версиях MATLAB.

Ваша матрица очень похожа на разреженную матрицу: помогает ли она преобразовать ее в эту форму, чтобы вы могли использовать индексирование массива? Это, вероятно, работает, только если данные в третьем столбце никогда не могут быть равны 0, в противном случае вам придется сохранить текущий явный список и использовать что-то вроде этого:

dates = unique(rawdata(:, 1));
num_comps = max(rawdata(:, 2));

for d = 1:length(dates) - 2;
    days = dates(d:d + 2);

    companies = true(1, num_comps);
    for curr_day = days'
        c = false(1, num_comps);
        c(rawdata(rawdata(:, 1) == curr_day, 2)) = true;
        companies = companies & c;
    end
    companies = find(companies);

    data = zeros(3, length(companies));
    for curr_day = 1:3
        for company = 1:length(companies)
            data(curr_day, company) = ...
                rawdata(rawdata(:, 1) == days(curr_day) & ...
                        rawdata(:, 2) == companies(company), 3);
        end
    end

    corrcoef(data)
end
...