Роль строк AsFactors в датафрейме - PullRequest
0 голосов
/ 22 ноября 2018

Пожалуйста, посмотрите на эти два кадра данных в R.

Когда я запускаю этот код, emp.data1 и emp.data2 одинаковы, несмотря на то, что stringsAsFactors в одном из них равен TRUE, а в другом - FALSE.роль stringsAsFactors в кадрах данных?

# Create the data frame.
emp.data1 <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 

   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = FALSE#Here stringsAsFactors is false
)
emp.data2 <- data.frame(
   emp_id = c (1:5), 
   emp_name = c("Rick","Dan","Michelle","Ryan","Gary"),
   salary = c(623.3,515.2,611.0,729.0,843.25), 

   start_date = as.Date(c("2012-01-01", "2013-09-23", "2014-11-15", "2014-05-11",
      "2015-03-27")),
   stringsAsFactors = TRUE#Here stringsAsFactors is true
)

Ответы [ 2 ]

0 голосов
/ 22 ноября 2018

Этот параметр изменяет тип данных строк.

sapply(emp.data1, class)
  emp_id    emp_name      salary  start_date 
"integer" "character"   "numeric"      "Date" 

sapply(emp.data2, class)
  emp_id   emp_name     salary start_date 
"integer"   "factor"  "numeric"     "Date" 

Как видите, класс emp_name равен factor, когда эта опция отключена.

Коэффициентыиспользуются при анализе данных или визуализации.Например, в наборе данных iris, который изначально поставляется с R, мы можем посмотреть на распределение длины лепестка и ширины лепестка, используя цвет для обозначения вида.

require(ggplot2)
sapply(iris,class)
ggplot(iris, aes(x=Petal.Length, y=Petal.Width, color=Species)) +
    geom_point()

Обозначая их какфактор позволяет R знать, что происходит своего рода группировка, и R автоматически определяет различные происходящие группировки (или «уровни»).

Явная маркировка факторов позволяет оптимально взаимодействовать с данными.

0 голосов
/ 22 ноября 2018

Считайте документы

stringsAsFactors обычно преобразует все строки, которые появляются в df, в факторную переменную вместо того, чтобы оставить ее как символьную переменную.В статистическом анализе факторы полезны для категориальных переменных.То, что вы хотите иметь, зависит от того, что вы хотите сделать с данными.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...