Попытка сравнить два разных класса переменных в R - PullRequest
0 голосов
/ 26 апреля 2020

Я работаю в наборе данных, где некоторые переменные являются символами, а другие - цифрами c. Из десятков тысяч наблюдений некоторые получили финансирование для осуществления проекта. Project - это символьная переменная с несколькими различными опциями, в зависимости от того, что они проектируют; в некоторых наблюдениях просто есть «нет» в этом столбце.

Я пытаюсь запустить базовую c статистику по различным возможностям в переменной Project. а также запустите некоторые графики, чтобы увидеть, куда попадают разные получатели проекта по сравнению с другими переменными в наборе данных, которые являются в основном цифрами c ковариатами.

Например, одна часть моего кода plot((Housing_Data$Project), (Housing_Data$Size)); но я получаю ужасную визуализацию, потому что я не знаю, как смотреть на наблюдения для одного типа проекта за раз.

Может кто-нибудь сказать мне, как сделать эквивалент (Housing_Data$Project, = "None")? Или что-то подобное?

1 Ответ

0 голосов
/ 26 апреля 2020

Как насчет бокса?

boxplot(Size ~ Project, data=Housing_Data)

Или для отдельного проекта:

boxplot(Size ~ Project, data=Housing_Data, subset=Project == "None")

Если Project является «фактором», то приведенная выше команда все равно покажет все уровни, но без показа данных. Чтобы предотвратить это, преобразуйте его в «символ»:

Housing_Data$Project <- as.character(Housing_Data$Project)
boxplot(Size ~ Project, data=Housing_Data, subset=Project == "None")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...