R в Python (rpy2) против Rstudio несоответствие результатов - PullRequest
0 голосов
/ 22 апреля 2019

Я хочу оценить результаты кластеризации в python, используя метрику CDbw, которая находится в пакете R fpc.Я тестирую оценку CDbw для набора данных iris, но в Rstudio я получаю другие результаты, чем в Python с rpy2.Я не имею понятия почему?Кто-нибудь может мне помочь?

Я пытался скопировать набор данных iris из Rstudio в python, но получаю те же результаты - в наборе данных нет несоответствия.Я использую Python 2.7 (реализация Cloudera Anaconda на кластере серверов) и rpy2 == 2.8.6.

pip install rpy2 == 2.8.6

Python

из sklearnимпорт наборов данных

из rpy2.robjects импорт pandas2ri

из rpy2.robjects.packages import importr

импорт панд в виде pd

df_data = pd.DataFrame (iris.data [: 150,:])

df_label = pd.DataFrame (iris.target [: 150])

fpc = importr ('fpc') *

rdf_data = pandas2ri.py2ri (df_data)

rdf_label = pandas2ri.py2ri (df_label)

cdbw = fpc.cdbw (rdf_data, rdf_label)

* 1028b * 1028b * 102929 **

$ cdbw [1] 0.2586786

$ сцепление [1] 0.6164132

$ компактность [1] 0.6470029

$ сеп [1] 0.6486081

Rstudio

iriss <- as.matrix (iris [c (1: 150), - 5]) </p>

irisc <- as.numeric (iris [c (1): 150), 5]) </p>

cdbw (ирис, ирис)

$ cdbw [1] 0,574

$ сцепление [1] 0,744

$ компактность [1] 0,787

$ сеп [1] 0,98

...