Я хочу оценить результаты кластеризации в python, используя метрику CDbw, которая находится в пакете R fpc.Я тестирую оценку CDbw для набора данных iris, но в Rstudio я получаю другие результаты, чем в Python с rpy2.Я не имею понятия почему?Кто-нибудь может мне помочь?
Я пытался скопировать набор данных iris из Rstudio в python, но получаю те же результаты - в наборе данных нет несоответствия.Я использую Python 2.7 (реализация Cloudera Anaconda на кластере серверов) и rpy2 == 2.8.6.
pip install rpy2 == 2.8.6
Python
из sklearnимпорт наборов данных
из rpy2.robjects импорт pandas2ri
из rpy2.robjects.packages import importr
импорт панд в виде pd
df_data = pd.DataFrame (iris.data [: 150,:])
df_label = pd.DataFrame (iris.target [: 150])
fpc = importr ('fpc') *
rdf_data = pandas2ri.py2ri (df_data)
rdf_label = pandas2ri.py2ri (df_label)
cdbw = fpc.cdbw (rdf_data, rdf_label)
* 1028b * 1028b * 102929 **
$ cdbw [1] 0.2586786
$ сцепление [1] 0.6164132
$ компактность [1] 0.6470029
$ сеп [1] 0.6486081
Rstudio
iriss <- as.matrix (iris [c (1: 150), - 5]) </p>
irisc <- as.numeric (iris [c (1): 150), 5]) </p>
cdbw (ирис, ирис)
$ cdbw [1] 0,574
$ сцепление [1] 0,744
$ компактность [1] 0,787
$ сеп [1] 0,98