У меня есть следующая проблема, которую я пытаюсь решить.
У меня есть сотни частиц с соответствующим химическим составом (элементы с их весовыми процентами).
В качестве примера приведем несколько вымышленных упрощенных частиц:
Частица 1 - S (32%), K (25%), C (43%)
Частица 2 - S (33%), K (12%), C (15%), O (40%)
Частица 3 - Ti (18%), S (72%)
Частица 4 - Ti (10%), S (79%), K (12%)
На самом деле их сотни, некоторые совершенно разные, некоторые очень похожие. Как вы можете видеть, некоторые частицы не имеют определенных элементов (то есть их можно использовать как 0%).
Чего я хотел бы добиться, так это выполнить кластерный анализ, который бы сгруппировал частицы в группы с похожими частицами и дал бы мне некоторые средние значения с точки зрения состава этого кластерного элемента.
Я смотрел на то, как работает кластерный анализ, но обычно он использует только 2 параметра, тогда как у меня есть много элементов для каждой частицы, и я хочу учесть более одного элемента для каждой частицы при кластеризации. Меня не очень интересует точное совпадение с точки зрения всех содержащихся в нем элементов. Другими словами, если, например, некоторые 2 частицы были очень похожими, за исключением того, что одна содержала один дополнительный элемент в очень небольшом количестве, это тоже было бы хорошо. Очень низкий процент иногда вызывается фоновым шумом при его измерении.
Как только я знаю, какую стратегию использовать, я бы идеально использовал R для этого. Но достаточно лишь дать мне подсказку о том, как это сделать, или ссылку.