У меня есть набор данных с именем dolls.csv, который я импортировал с помощью
dolls <- read.csv("dolls.csv")
Это фрагмент данных
Name Review Year Strong Skinny Weak Fat Normal
Bell 3.5 1990 1 1 0 0 0
Jan 7.2 1997 0 0 1 0 1
Tweet 7.6 1987 1 1 0 0 0
Sall 9.5 2005 0 0 0 1 0
Я пытаюсь провести предварительный анализ этих данных. Имя - это имя куклы, в обзоре - рейтинг 1-10, год - это год, в котором произведен год, и все значения после этого являются двоичными, где они равны 1, если обладают характеристикой, или 0, если они не имеют.
Я побежал
summary(dolls)
и получите заголовок, средние, минимальные и максимальные значения.
Я пытаюсь выяснить, какова корреляция между характеристиками и годом или рейтингом обзора, чтобы увидеть, есть ли какая-то корреляция (например, чтобы увидеть, есть ли у некоторых кукол действительно высокие оценки, но все же имеют неблагоприятные черты), не знаю, как построить графики или какие функции использовать в этом случае? Я рассматривал некоторые хвостовые тесты ANOVA для выбросов и средних значений, но не знал, как сравнивать такие значения (в python я выполнял оператор if-then, но не знаю, как это сделать в R).
Это личное исследование, которое я хотел провести и улучшить свои навыки в области R.
Спасибо!