Чтобы дать некоторое представление, я моделирую, как различные атрибуты дома влияют на цены домов вокруг них.Для этого у меня есть таблица 4000 продаж домов и демография каждого дома.Я генерирую значение как меру «взаимозаменяемости» между каждой парой домов.
Моя первая мысль при создании этого состояла в том, чтобы построить матрицу 4000x4000 в Excel.Однако, как только мои вычисления стали немного затруднительными, я довольно быстро столкнулся с ограничениями памяти.
Итак, теперь я поместил транзакции в вышеупомянутую таблицу и хочу построить таблицу "взаимодействия" скаждая строка представляет собой пару домов с одним столбцом в качестве меры заменимости.
Структура таблицы будет выглядеть примерно так:
House1ID House2ID SubIndex
1 2 400
1 3 450
2 3 500
Моя проблема в том, что используемый мной статистический программный пакет требуетданные в следующем формате:
1 2 3
1 0 400 450
2 400 0 500
3 450 500 0
Есть ли способ перейти от структуры таблицы, упомянутой выше, к необходимому выводу матрицы?
Вся помощь очень важна!
РЕДАКТИРОВАТЬ: После небольшого исследования я понял, что теперь я могу генерировать нормализованную "таблицу" с помощью представления с использованием перекрестного соединения.Хотя это на самом деле не меняет вопроса, я подумал, что это интересно, и решил, что я укажу на метод, который я использовал.