Нахождение корреляций между данными в фрейме данных (включая двоичные) - PullRequest
0 голосов
/ 12 апреля 2019

У меня есть набор данных с именем dolls.csv, который я импортировал с помощью

dolls <- read.csv("dolls.csv")

Это фрагмент данных

Name  Review Year Strong Skinny Weak Fat Normal
Bell  3.5    1990   1      1      0    0    0
Jan   7.2    1997   0      0      1    0    1
Tweet 7.6    1987   1      1      0    0    0
Sall  9.5    2005   0      0      0    1    0

Я пытаюсь провести предварительный анализ этих данных. Имя - это имя куклы, в обзоре - рейтинг 1-10, год - это год, в котором произведен год, и все значения после этого являются двоичными, где они равны 1, если обладают характеристикой, или 0, если они не имеют.

Я побежал

summary(dolls)

и получите заголовок, средние, минимальные и максимальные значения.

Я пытаюсь выяснить, какова корреляция между характеристиками и годом или рейтингом обзора, чтобы увидеть, есть ли какая-то корреляция (например, чтобы увидеть, есть ли у некоторых кукол действительно высокие оценки, но все же имеют неблагоприятные черты), не знаю, как построить графики или какие функции использовать в этом случае? Я рассматривал некоторые хвостовые тесты ANOVA для выбросов и средних значений, но не знал, как сравнивать такие значения (в python я выполнял оператор if-then, но не знаю, как это сделать в R).

Это личное исследование, которое я хотел провести и улучшить свои навыки в области R.

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...