Я хочу объединить фирмы на основе данных баланса.
У меня есть доступ к очень подробным балансовым данным фирм. Набор данных содержит более 1000 функций для более чем 1000 фирм. Теперь моя цель - объединить эти фирмы в соответствие с их бизнес-моделью, основанной на подмножестве этих функций. Поскольку меня интересует бизнес-модель фирм, я буду масштабировать характеристики по сумме активов. Это должно снизить преобладающее влияние размера фирмы на результат кластеризации.
В дополнение к некоторому уменьшению аналитической размерности, которое я буду выполнять, я также хочу запустить кластерный анализ после интуитивно уменьшенного количества используемых функций. Здесь вложенная природа функций затрудняет мне понимание того, как выбор функций влияет на результат кластеризации. Позволь мне объяснить.
Как правило, у меня есть три типа функций (X, Y и Z) в агрегированном балансе. В объектах типа X есть суб-переменные x1, x2 и x3, которые в сумме дают ровно X. В объектах типа Y есть суб-переменные y1 и y2, сумма которых меньше, чем Y, что означает, что в Y есть некоторое количество, которое явно не указано в балансе или, по крайней мере, не указано в одной из непосредственных подчиненных позиций. Наконец, функции типа Z не имеют никаких под-переменных.
Вот пример баланса для описания:
Assets Liabilities
X (100) A (200)
x1 (30) a1 (150)
x2 (30) a2 (25)
x3 (40) a3 (25)
x1+x2+x3=X a1+a2+a3=A
Y (150) B (200)
y1 (10) b1 (80)
y2 (40) b2 (100)
Z (350) C (100)
Tot. Ass. (500) Tot. Liab. (500)
Пока я включаю только X, Y и Z (и A, B и C) в кластерный анализ, я не ожидаю никаких проблем.
Теперь вот моя серия вопросов:
Предположим, я хочу включить в анализ x1, x2 и x3. Должен ли я исключить X? Кроме того, я сталкиваюсь с проблемой из-за величины чисел, которые теперь намного меньше? Я считаю, что использование расстояния на основе корреляции имеет смысл в этом сценарии. Вы согласны?
Предположим, я хочу включить y1 и y2 в анализ. В этом случае я не должен удалять Y из анализа, потому что в зависимости от размера y1 и y2 относительно Y, Y все еще может иметь много объяснительной силы. Вы согласны?
Буду благодарен за любые ссылки, а также просто общие советы по анализу кластеризации / ссылкам, которые можно посмотреть и т. Д.
P.s. Я делаю анализ в R.