Question

Когда я преобразую коэффициент в числовое или целое число, я получаю коды базового уровня, а не значения в виде чисел.

f <- factor(sample(runif(5), 20, replace = TRUE))
##  [1] 0.0248644019011408 0.0248644019011408 0.179684827337041 
##  [4] 0.0284090070053935 0.363644931698218  0.363644931698218 
##  [7] 0.179684827337041  0.249704354675487  0.249704354675487 
## [10] 0.0248644019011408 0.249704354675487  0.0284090070053935
## [13] 0.179684827337041  0.0248644019011408 0.179684827337041 
## [16] 0.363644931698218  0.249704354675487  0.363644931698218 
## [19] 0.179684827337041  0.0284090070053935
## 5 Levels: 0.0248644019011408 0.0284090070053935 ... 0.363644931698218

as.numeric(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

as.integer(f)
##  [1] 1 1 3 2 5 5 3 4 4 1 4 2 3 1 3 5 4 5 3 2

Мне нужно прибегнуть к paste, чтобы получить реальные значения:

as.numeric(paste(f))
##  [1] 0.02486440 0.02486440 0.17968483 0.02840901 0.36364493 0.36364493
##  [7] 0.17968483 0.24970435 0.24970435 0.02486440 0.24970435 0.02840901
## [13] 0.17968483 0.02486440 0.17968483 0.36364493 0.24970435 0.36364493
## [19] 0.17968483 0.02840901

Есть ли лучший способ преобразовать коэффициент в числовой?

Joshua Ulrich · Answer 1 · 05 августа 2010

См. Раздел Предупреждение ?factor:

В частности, as.numeric применяется к фактор не имеет смысла, и может произойти путем неявного принуждения. к преобразовать коэффициент f в примерно его исходный числовой значения as.numeric(levels(f))[f] рекомендуется и немного больше эффективнее, чем as.numeric(as.character(f)).

FAQ по R имеет аналогичный совет .

Почему as.numeric(levels(f))[f] более эффективен, чем as.numeric(as.character(f))?

as.numeric(as.character(f)) фактически равен as.numeric(levels(f)[f]), поэтому вы выполняете преобразование в числовое значение для значений length(x), а не для значений nlevels(x). Разница в скорости будет наиболее очевидной для длинных векторов с несколькими уровнями. Если значения в основном уникальны, разницы в скорости не будет. Несмотря на то, что вы выполняете преобразование, эта операция вряд ли станет узким местом в вашем коде, поэтому не беспокойтесь об этом.

Некоторые тайминги

library(microbenchmark)
microbenchmark(
  as.numeric(levels(f))[f],
  as.numeric(levels(f)[f]),
  as.numeric(as.character(f)),
  paste0(x),
  paste(x),
  times = 1e5
)
## Unit: microseconds
##                         expr   min    lq      mean median     uq      max neval
##     as.numeric(levels(f))[f] 3.982 5.120  6.088624  5.405  5.974 1981.418 1e+05
##     as.numeric(levels(f)[f]) 5.973 7.111  8.352032  7.396  8.250 4256.380 1e+05
##  as.numeric(as.character(f)) 6.827 8.249  9.628264  8.534  9.671 1983.694 1e+05
##                    paste0(x) 7.964 9.387 11.026351  9.956 10.810 2911.257 1e+05
##                     paste(x) 7.965 9.387 11.127308  9.956 11.093 2419.458 1e+05

Jealie · Answer 2 · 28 марта 2014

R имеет ряд (недокументированных) удобных функций для преобразования факторов:

as.character.factor
as.data.frame.factor
as.Date.factor
as.list.factor
as.vector.factor
...

Но досадно, что нечего обрабатывать фактор -> числовое преобразование. В качестве продолжения ответа Джошуа Ульриха я бы предложил преодолеть это упущение с помощью определения вашей собственной идиоматической функции:

as.numeric.factor <- function(x) {as.numeric(levels(x))[x]}

, который вы можете сохранить в начале вашего сценария или, что еще лучше, в файле .Rprofile.

Mehrad Mahmoudian · Answer 3 · 01 декабря 2015

Самый простой способ - использовать функцию unfactor из пакета varhandle

unfactor(your_factor_variable)

Этот пример может быть быстрым началом:

x <- rep(c("a", "b", "c"), 20)
y <- rep(c(1, 1, 0), 20)

class(x)  # -> "character"
class(y)  # -> "numeric"

x <- factor(x)
y <- factor(y)

class(x)  # -> "factor"
class(y)  # -> "factor"

library(varhandle)
x <- unfactor(x)
y <- unfactor(y)

class(x)  # -> "character"
class(y)  # -> "numeric"

Indi · Answer 4 · 22 февраля 2017

Примечание: этот конкретный ответ не для преобразования числовых факторов в числовые, он предназначен для преобразования категориальных факторов в соответствующие номера уровней.

Каждый ответ в этом посте не дал результатов для меня, NA были сгенерированы.

y2<-factor(c("A","B","C","D","A")); 
as.numeric(levels(y2))[y2] 
[1] NA NA NA NA NA Warning message: NAs introduced by coercion

Что сработало для меня, это -

as.integer(y2)
# [1] 1 2 3 4 1

djhurio · Answer 5 · 09 октября 2015

Возможно только в случае, когда метки коэффициента соответствуют исходным значениям. Я объясню это на примере.

Предположим, данные являются векторными x:

x <- c(20, 10, 30, 20, 10, 40, 10, 40)

Теперь я создам фактор с четырьмя метками:

f <- factor(x, levels = c(10, 20, 30, 40), labels = c("A", "B", "C", "D"))

1) x с типом double, f с типом integer. Это первая неизбежная потеря информации. Факторы всегда хранятся в виде целых чисел.

> typeof(x)
[1] "double"
> typeof(f)
[1] "integer"

2) Невозможно вернуться к исходным значениям (10, 20, 30, 40), имея только f. Мы видим, что f содержит только целые значения 1, 2, 3, 4 и два атрибута - список меток («A», «B», «C», «D») и атрибут класса «factor» , Ничего больше.

> str(f)
 Factor w/ 4 levels "A","B","C","D": 2 1 3 2 1 4 1 4
> attributes(f)
$levels
[1] "A" "B" "C" "D"

$class
[1] "factor"

Чтобы вернуться к исходным значениям, мы должны знать значения уровней, используемых при создании фактора. В этом случае c(10, 20, 30, 40). Если мы знаем исходные уровни (в правильном порядке), мы можем вернуться к исходным значениям.

> orig_levels <- c(10, 20, 30, 40)
> x1 <- orig_levels[f]
> all.equal(x, x1)
[1] TRUE

И это будет работать только в том случае, если для всех возможных значений в исходных данных были определены метки.

Так что, если вам понадобятся исходные значения, вы должны сохранить их. В противном случае есть большая вероятность, что вернуться к ним будет невозможно только с фактора.

davsjob · Answer 6 · 01 ноября 2018

Вы можете использовать hablar::convert, если у вас есть фрейм данных. Синтаксис прост:

Образец df

library(hablar)
library(dplyr)

df <- dplyr::tibble(a = as.factor(c("7", "3")),
                    b = as.factor(c("1.5", "6.3")))

Решение

df %>% 
  convert(num(a, b))

дает вам:

# A tibble: 2 x 2
      a     b
  <dbl> <dbl>
1    7.  1.50
2    3.  6.30

Или, если вы хотите, чтобы один столбец был целым, а один числовым:

df %>% 
  convert(int(a),
          num(b))

Результат:

# A tibble: 2 x 2
      a     b
  <int> <dbl>
1     7  1.50
2     3  6.30

Jerry T · Answer 7 · 13 ноября 2018

поздно к игре, случайно, я обнаружил, trimws() может конвертировать factor(3:5) в c("3","4","5"). Тогда вы можете позвонить as.numeric(). То есть:

as.numeric(trimws(x_factor_var))

Как преобразовать коэффициент в целое число \ числовое без потери информации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как преобразовать коэффициент в целое число \ числовое без потери информации?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы