Различные результаты для одного и того же набора данных в Cluster Analyses с R Studio? - PullRequest
0 голосов
/ 23 ноября 2018

Я только начал использовать R, и у меня возник вопрос о кластерном анализе в R. Я применяю функцию agnes, чтобы применить кластерный анализ для моего набора данных.Но я понял, что результаты кластера и pltrees разные, когда я использовал файл .txt и файл .csv.

Может быть, лучше объяснить мою проблему с изображениями:

Мой набор данных в формате .txt;enter image description here

Я использовал следующий код для просмотра данных в R;

data01 <- read.table("D:/CLUSTER_ANALYSIS/NumericData3_IN.txt", header = T)

и все в порядке, похоже;enter image description here

Я применяю анализ кластера,

complete1 <- agnes(data01, stand = FALSE, method = 'complete')
plot(complete1, which.plots=2, main='Complete-Linkage')

И вот дерево данных: enter image description here

Я сделал те же шаги с файлом .csv, которыйвключает в себя точно такой же набор данных.Вот набор данных в формате .csv: enter image description here

Опять кластерный анализ для файла .csv:

data02 <- read.csv("D:/CLUSTER_ANALYSIS/NumericData3.csv", header = T)

complete2 <- agnes(data02, stand = FALSE, method = 'complete')

plot(complete2, which.plots=2, main='Complete-Linkage')

И pltree совершенно другое, enter image description here

Итак, DECIMAL SEPARATOR для txt это COMMA, а для csv файла это DOT.Какие из этих результатов верны?Является ли десятичный разделитель для числового набора данных запятой или точкой в ​​R?

1 Ответ

0 голосов
/ 23 ноября 2018

Из руководства R в read.table (и read.csv) вы можете увидеть разделители по умолчанию.Они являются точечными для каждой из ваших используемых функций.Вы также можете установить их как угодно с помощью параметра «dec».Например:

data01 <- read.table("D:/CLUSTER_ANALYSIS/NumericData3_IN.txt", header = T, dec=",")
...