имитируют что-то вроде ваших данных:
NROWS = c(3000,6000,10000)
names(NROWS)=c("RU","EG","NG")
df = lapply(names(NROWS),function(i){
data.frame(
Value = c(rnorm(0.9*NROWS[i]),rpois(0.1*NROWS[i],5)),
Country=i,
ID = paste0(i,"_",1:NROWS[i])
)
})
df = do.call(rbind,df)
Создайте функцию для выполнения SVM, потому что вы предсказываете на подмножестве, но возвращаете все ..
library(e1071)
SVM_f = function(x,limit=5000){
N = min(c(limit,length(x)))
mdl = svm(x[sample(length(x),N)],
nu=0.98, type="one-classification", kernel="polynomial")
predict(mdl,x)
}
res = by(df,df$Country,function(x){
data.frame(x,SVM = SVM_f(x$Value))
})
res = do.call(rbind,res)
Value Country ID SVM
RU.1 1.2802954 RU RU_1 FALSE
RU.2 -2.7119588 RU RU_2 FALSE
RU.3 -0.4856534 RU RU_3 FALSE
RU.4 -0.5041824 RU RU_4 FALSE
RU.5 -0.7043723 RU RU_5 FALSE
RU.6 0.0472744 RU RU_6 FALSE
Вы также можете использовать dplyr , но он может работать немного медленнее:
library(dplyr)
df %>% group_by(Country) %>% mutate(SVM=SVM_f(Value))