Дополнительные категории показаны в R - PullRequest
0 голосов
/ 15 сентября 2018

У меня есть датафрейм, в котором в качестве категориальной переменной указаны языки, на которых говорят в индийском штате (английский, хинди, пенджаби).Но когда я бегу, чтобы увидеть количество категорий, оно показывает:

Коэффициент с 4 уровнями: «0», английский, хинди, панджаби

Почему яполучить "0"?

Ответы [ 2 ]

0 голосов
/ 15 сентября 2018

Немного сложно понять, что именно происходит, без дополнительной информации о ваших данных или образце. Вы инициализировали данные как факторы или они были автоматически загружены?

Вот что я бы проверил:

1) Есть ли у вас null точек данных в этой переменной? Может быть, им присвоены «0».

2) Если ваши данные происходят из файла типа csv, попробуйте прочитать данные без stringsAsFactors=FALSE и только затем преобразовать тип переменной.

3) По моему опыту, иногда R ведет себя очень странно с любым языком, который не является английским (кодировка в R несколько слабая). Может быть, на других языках есть специальные символы, которые смещают уровни?

4) Попробуйте запросить факторы, соответствующие «0». Что вы получаете?

0 голосов
/ 15 сентября 2018

Образец вашего набора данных был бы полезен, но в целом, чтобы увидеть (исчерпывающим образом) все возможные категории в вашем столбце, вы должны сначала преобразовать его в символ:

unique( as.character(df$column) )
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...