Есть ли лучший способ использовать disk.frame в функции? - PullRequest
2 голосов
/ 28 мая 2020

Я создал несколько функций, которые должны обрабатывать в качестве входных данных либо disk.frame, либо data.table. Я получаю ошибки от пакета future, используемого в disk.frame, из-за того, что объект не был найден при выполнении. Я думаю, это связано с тем, что future ищет объекты для передачи каждому исполнителю в глобальной среде и не распознает объекты, которые я создал в среде выполнения функции. Супер-назначение <<- решает эту проблему, но мне интересно, есть ли лучший - или более подходящий - способ реализовать использование disk.frame в функциях?

Я использую самые последние версии disk.frame '0.3.5' и future '1.17.0' с R версии 4.0.0 на Windows 10 x64.

Я воспроизвел пример с использованием набора данных диафрагмы:

Setup

#Load data
data("iris")
head(iris)
#  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
# 1:          5.1         3.5          1.4         0.2  setosa
# 2:          4.9         3.0          1.4         0.2  setosa
# 3:          4.7         3.2          1.3         0.2  setosa
# 4:          4.6         3.1          1.5         0.2  setosa
# 5:          5.0         3.6          1.4         0.2  setosa
# 6:          5.4         3.9          1.7         0.4  setosa

#Setup disk.frame
library(disk.frame)
disk.frame::setup_disk.frame()
options(future.globals.maxSize = Inf)

#Make the disk.frame
df <- disk.frame::as.disk.frame(df = iris)

Рабочая операция disk.frame

Это работает, потому что filterVals находится в глобальной среде.

#data.table style operations - row-wise filter with vector
valMin <- 1.4
valMax <- 3.5
filterVals <- c(valMin, valMax) 

#data.table style filter with disk.frame
means_filter <- df[Petal.Length %between% filterVals, ]

Выполнение операции disk.frame внутри функции

#data.table style operations on the disk.frame in a function 
f <- function(vMin, vMax, dskF){
  fVals <- c(vMin, vMax)
  dskF[Petal.Length %between% fVals, ]
}

#This will throw an error
means_filter_func <- f(vMin = valMin, vMax = valMax, dskF = df)
# Error in .checkTypos(e, names_x) : 
#   Object 'fVals' not found amongst Sepal.Length, Sepal.Width, Petal.Length, Petal.Width, Species

#Same function but with supper assignment 
f2 <- function(vMin, vMax, dskF){
  fVals <<- c(vMin, vMax)
  dskF[Petal.Length %between% fVals, ]
}
#This works
means_filter_func <- f2(vMin = valMin, vMax = valMax, dskF = df)

#Cleanup
disk.frame::delete(df)
...