Как преобразовать столбец фрейма данных в числовой тип? - PullRequest
233 голосов
/ 18 февраля 2010

Как преобразовать столбец фрейма данных в числовой тип?

Ответы [ 16 ]

252 голосов
/ 19 февраля 2010

Поскольку (все еще) никто не ставил галочку, я предполагаю, что вы имеете в виду некоторые практические проблемы, в основном потому, что вы не указали, какой тип вектора вы хотите преобразовать в numeric. Я предлагаю вам применить transform функцию для выполнения вашей задачи.

Теперь я собираюсь продемонстрировать определенную «аномалию конверсии»:

# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)

Давайте взглянем на data.frame

> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

и давайте запустим:

> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 

Теперь вы, вероятно, спрашиваете себя «Где аномалия?» Ну, я столкнулся с довольно странными вещами в R, и это не самая смущающая вещь, но это может сбить вас с толку, особенно если вы прочитаете это перед тем, как лечь в постель.

Здесь идет: первые два столбца character. Я специально назвал 2 и один fake_char. Найдите сходство этой переменной character с той, которую Дирк создал в своем ответе. На самом деле это numerical вектор, преобразованный в character. 3 rd и 4 th столбец factor, а последний "чисто" numeric.

Если вы используете функцию transform, вы можете преобразовать fake_char в numeric, но не в саму переменную char.

> transform(d, char = as.numeric(char))
  char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion

но если вы сделаете одно и то же на fake_char и char_fac, вам повезет, и вам не удастся без NA:

> transform(d, fake_char = as.numeric(fake_char), 
               char_fac = as.numeric(char_fac))

  char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5

Если вы сохраните преобразованный data.frame и отметите mode и class, вы получите:

> D <- transform(d, fake_char = as.numeric(fake_char), 
                    char_fac = as.numeric(char_fac))

> sapply(D, mode)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"   "numeric"   "numeric"   "numeric" 
> sapply(D, class)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"    "factor"   "numeric"   "integer"

Итак, вывод таков: Да, вы можете конвертировать character вектор в numeric, но только если его элементы «конвертируемы» в numeric. Если в векторе есть только один character элемент, вы получите ошибку при попытке преобразовать этот вектор в numerical один.

И просто чтобы доказать мою точку зрения:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA

А теперь, просто для развлечения (или практики), попробуйте угадать вывод этих команд:

> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???

С уважением, Патрик Бернс! =)

123 голосов
/ 18 февраля 2010

Что-то, что мне помогло: если у вас есть диапазоны переменных для преобразования (или просто более одной), вы можете использовать sapply.

Немного бессмысленно, но только для примера:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

Скажем, столбцы 3, 6-15 и 37 вашего кадра данных должны быть преобразованы в числовые:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)
78 голосов
/ 18 февраля 2010

, если x - это имя столбца кадра данных dat, а x имеет тип-фактор, используйте:

as.numeric(as.character(dat$x))
21 голосов
/ 06 декабря 2014

Я бы добавил комментарий (не могу низкий рейтинг)

Просто добавь user276042 и pangratz

dat$x = as.numeric(as.character(dat$x))

Это переопределит значения существующего столбца x

15 голосов
/ 18 февраля 2010

Тим прав, а у Шейна упущение.Вот дополнительные примеры:

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 

У нашего data.frame теперь есть сводка столбца коэффициентов (счетчиков) и числовые сводки as.numeric() ---, что неправильно какон получил числовые уровни факторов --- и (правильное) резюме as.numeric(as.character()).

14 голосов
/ 19 марта 2014

С помощью следующего кода вы можете преобразовать все столбцы фрейма данных в числовые (X - фрейм данных, в который мы хотим преобразовать его столбцы):

as.data.frame(lapply(X, as.numeric))

и для преобразования всей матрицы в числовое у вас есть два способа: Или:

mode(X) <- "numeric"

или

X <- apply(X, 2, as.numeric)

В качестве альтернативы вы можете использовать функцию data.matrix для преобразования всего в числовое значение, хотя учтите, что коэффициенты могут преобразовываться неправильно, поэтому безопаснее сначала преобразовать все в character:

X <- sapply(X, as.character)
X <- data.matrix(X)

Я обычно использую этот последний , если я хочу для преобразования в матрицу и число одновременно

13 голосов
/ 05 марта 2017

Несмотря на то, что ваш вопрос касается исключительно чисел, есть много преобразований, которые трудно понять с самого начала R. Я постараюсь обратиться к методам помощи. Этот вопрос похож на Этот вопрос .

Преобразование типов может быть проблемой в R, потому что (1) факторы не могут быть преобразованы непосредственно в числовые, их нужно сначала преобразовать в класс символов, (2) даты - это особый случай, с которым вам обычно приходится иметь дело отдельно, и (3) цикл по столбцам фрейма данных может быть сложным. К счастью, «Tidyverse» решил большинство проблем.

Это решение использует mutate_each() для применения функции ко всем столбцам в фрейме данных. В этом случае мы хотим применить функцию type.convert(), которая преобразует строки в числовые значения, где это возможно. Поскольку R любит факторы (не знаю почему), столбцы символов, которые должны оставаться символами, меняются на фактор. Чтобы исправить это, функция mutate_if() используется для обнаружения столбцов, которые являются факторами и переходят в символьные. Наконец, я хотел показать, как lubridate можно использовать для изменения метки времени в классе символов на дату-время, потому что это также часто является препятствующим блоком для начинающих.


library(tidyverse) 
library(lubridate)

# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90

# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90
11 голосов
/ 15 июля 2015

Если у вас возникли проблемы с:

as.numeric(as.character(dat$x))

Посмотрите на свои десятичные знаки. Если они "," вместо "." (например, "5,3") вышеописанное не будет работать.

Потенциальное решение:

as.numeric(gsub(",", ".", dat$x))

Я полагаю, что это довольно распространено в некоторых неанглоязычных странах.

6 голосов
/ 10 октября 2015

Универсальный способ с использованием type.convert() и rapply():

convert_types <- function(x) {
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)
}
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"
3 голосов
/ 18 апреля 2015

Чтобы преобразовать столбец фрейма данных в числовое значение, вам просто нужно сделать: -

коэффициент в числовое значение: -

data_frame$column <- as.numeric(as.character(data_frame$column))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...