Как создать новый тип в R, который хорошо играет внутри data.frame? - PullRequest
3 голосов
/ 09 марта 2020

Я думаю, есть несколько способов сделать это. Следовательно, ответы на этот вопрос могут быть субъективными, если не опровергнуты. Поэтому я постараюсь сузить проблему и дать вам подробную информацию о том, что я уже сделал.

Контекст

Я работаю с пакетом R6 и создал IntervalNumeric R6Class, который имеет два поля lower_bound и upper_bound:

require(R6)
NumericInterval <-
  R6Class(
        "NumericInterval",
        public = list(
          lower_bound = NA,
          upper_bound = NA,
          initialize = function(low, up) {
            self$lower_bound <- low
            self$upper_bound <- up
          },
          as_character = function() {
            paste0("[", self$lower_bound, ", ",
                        self$upper_bound, "]")}))

Я также использовал систему методов S3 generi c, чтобы получить as.character и print для NumericInterval тип:

as.character.NumericInterval <- function(x, ...) {
  x$as_character()}
print.NumericInterval <- function(x, ...) {
  x$as_character()}

Теперь я могу сделать это (и то же самое с print):

> as.character(NumericInterval$new(0, pi))

[1] "[0, 3.14159265358979]"

Вопрос:

Что такое нужно сделать сейчас, чтобы использовать этот новый тип в качестве data.frame типа столбца?

Например, я хочу иметь возможность сделать это:

(df <- data.frame(
   X = c("I1", "I2", "I3"),
   Y = c(NumericInterval$new(0,1),
         NumericInterval$new(1,2),
         NumericInterval$new(2,3)))

и получить:

   X      Y
1 I1 [0, 1]
2 I2 [1, 2]
3 I3 [2, 3]

но я получаю:

Error in as.data.frame.default(x[[i]], optional = TRUE) :
  cannot coerce class ‘c("NumericInterval", "R6")’ to a data.frame

Конечно, я также хочу иметь возможность доступа к объектам и делать такие вещи, как:

df[2, 2]$lower_bound <- 0

tibble с кажется, что решение

(df <- tibble(
X = c("I1", "I2", "I3"),
Y = c(NumericInterval$new(0,1),
NumericInterval$new(1,2),
NumericInterval$new(2,3))))

производит:

# A tibble: 3 x 2
  X     Y
  <chr> <list>
1 I1    <NmrcIntr>
2 I2    <NmrcIntr>
3 I3    <NmrcIntr>

И каждый NumericInterval размещается, как ожидается, например:

> require(dplyr)
> df[2,1][[1]] %>% pull


[[1]]
<NumericInterval>
  Public:
    as_character: function ()
    clone: function (deep = FALSE)
    initialize: function (low, up)
    lower_bound: 0
    upper_bound: 1

Но вывод и доступ к объекту не тот, который я ожидаю. * 10 53 *

1 Ответ

4 голосов
/ 19 апреля 2020

Есть некоторые конструктивные решения, которые необходимо принять, прежде чем вы сможете привести объекты R6 в кадр данных. Возможно, наиболее важным является то, на каком уровне вы хотите, чтобы происходила векторизация.

В вашем примере у вас есть "atomi c" NumericInterval s, которые вы помещаете в вектор, и это, безусловно, имеет некоторые преимущества, но главный недостаток заключается в том, что когда вы пытаетесь использовать базовые векторные функции R в наборе NumericInterval s, R рассматривает объекты как среды (как и R6 объекты). Это означает, что вы не получите то поведение, которое вам нужно, потому что вы хотите, чтобы R обрабатывал вектор этих сред иначе, чем он обычно обрабатывает вектор сред. Другими словами, чтобы справиться с этим способом работы, вам нужно определить другой класс с методами для управления векторными операциями. Это возможно, но кажется сложным, грязным и неэффективным.

Мне кажется, что было бы лучше сохранить векторизацию внутри одного объекта R6, то есть иметь векторы lower_bounds и upper_bounds в пределах одного объекта R6. Класс R6 может быть создан для обработки печати, форматирования и поднабора и может действовать как целый столбец в самом фрейме данных.

Чтобы сделать все это, сначала необходимо определить некоторые специализации R6 generi c functions:

`[.R6` <- function(x, ...) x$`[`(...) 
`[<-.R6` <- function(x, ...) x$`[<-`(...)
length.R6 <- function(x) x$length()
format.R6 <- function(x) x$format()
as.data.frame.R6 <- function(x, ...) x$as.data.frame()

Имея их как .R6 вместо NumericInterval, можно использовать их в нескольких разных классах.

Теперь мы можем определить наш класс с нужными нам специализациями :

NumericInterval <- R6Class("NumericInterval",
        public = list(
          lower_bound = NA,
          upper_bound = NA,
          initialize = function(low, up) {
            self$lower_bound <- low
            self$upper_bound <- up
          },
          `[` = function(n){
            return(NumericInterval$new(self$lower_bound[n], self$upper_bound[n]))
          },
          `[<-` = function(n, m){
            self$lower_bound[n] <- m[1]
            self$upper_bound[n] <- m[2]
            invisible(self)
          },
          length = function() length(self$lower_bound), 
          as.data.frame = function(...) {
            structure(
              list(interval = structure(a)), 
              class = "data.frame", 
              row.names = seq_along(self$lower_bound))
          },
          as_character = function() {
            paste0("[", self$lower_bound, ", ",
                        self$upper_bound, "]")},
          format = function(...) self$as_character(),
          print = function() {
            print(self$as_character(), quote = FALSE)
            invisible(self)}))

, который производит следующее поведение:

a <- NumericInterval$new(1:3, 4:6)
a
#> [1] [1, 4] [2, 5] [3, 6]

as.data.frame(a)
#>   interval
#> 1   [1, 4]
#> 2   [2, 5]
#> 3   [3, 6]

df <- data.frame(id = LETTERS[1:3], interval = a)
df
#>   id interval
#> 1  A   [1, 4]
#> 2  B   [2, 5]
#> 3  C   [3, 6]

df[1,]
#>   id interval
#> 1  A   [1, 4]

df$interval[1]$lower_bound
#> [1] 1

Это, конечно, не код производственного уровня. В частности, вам нужно будет включить обработку ошибок, чтобы гарантировать, что верхняя и нижняя границы имеют одинаковую длину и оба имеют номера c.

...