Обнаружение выброса КНН в R - PullRequest
       39

Обнаружение выброса КНН в R

0 голосов
/ 28 октября 2019

Я пытаюсь запустить сценарий, который мне дали, чтобы выполнить обнаружение выброса с использованием взвешенного значения выброса KNN, но продолжаю получать следующую ошибку:

Ошибка в применении (kNNdist (x = dat,k = k), 1, среднее):
dim (X) должен иметь положительную длину

Сценарий, который я пытаюсь запустить, такой, как показано ниже. Это отдельный блок скрипта, но я добавил комментарий прямо над разделом скрипта, который вызывает ошибку, а именно:

WKNN_Outlier <- apply(kNNdist(x=dat, k = k), 1, mean)

Если у кого-то есть идеи получше или проще дляОбнаружение неконтролируемых выбросов, я весь слух (так сказать ...)

    library(dbscan)
    library(ggplot2)

    set.seed(0)

    x11 <- rnorm(n = 100, mean = 10, sd = 1) # Cluster 1 (x1 coordinate)
    x21 <- rnorm(n = 100, mean = 10, sd = 1) # Cluster 1 (x2 coordinate)
    x12 <- rnorm(n = 100, mean = 20, sd = 1) # Cluster 2 (x1 coordinate)
    x22 <- rnorm(n = 100, mean = 10, sd = 1) # Cluster 2 (x2 coordinate)
    x13 <- rnorm(n = 100, mean = 15, sd = 3) # Cluster 3 (x1 coordinate)
    x23 <- rnorm(n = 100, mean = 25, sd = 3) # Cluster 3 (x2 coordinate)
    x14 <- rnorm(n = 50, mean = 25, sd = 1)  # Cluster 4 (x1 coordinate)
    x24 <- rnorm(n = 50, mean = 25, sd = 1)  # Cluster 4 (x2 coordinate)

    dat <- data.frame(x1 = c(x11,x12,x13,x14), x2 = c(x21,x22,x23,x24))

    ( g0a <- ggplot() + geom_point(data=dat, mapping=aes(x=x1, y=x2), shape = 19) )

    k <- 4 # KNN parameter
    top_n <- 20 # No. of top outliers to be displayed

    KNN_Outlier <- kNNdist(x=dat, k = k)
    rank_KNN_Outlier <- order(x=KNN_Outlier, decreasing = TRUE)    # Sorting (descending)
    KNN_Result <- data.frame(ID = rank_KNN_Outlier, score = KNN_Outlier[rank_KNN_Outlier])

    head(KNN_Result, top_n)

    graph <- g0a +
      geom_point(data=dat[rank_KNN_Outlier[1:top_n],], mapping=aes(x=x1,y=x2), shape=19, 
      color="red", size=2) +
      geom_text(data=dat[rank_KNN_Outlier[1:top_n],],
      mapping=aes(x=(x1-0.5), y=x2, label=rank_KNN_Outlier[1:top_n]), size=2.5)

    graph

    ## Use KNNdist() to calculate the weighted KNN outlier score

    k <- 4       # KNN parameter
    top_n <- 20  # No. of top outliers to be displayed

Функция WKNN_Outler, представленная ниже, является причиной ошибки. Из того, что я могу собрать, у функции apply не должно быть никаких проблем, поскольку данные (dat) преобразуются в data.frame, который должен предотвратить ошибку, но не делает этого.

    WKNN_Outlier <- apply(kNNdist(x=dat, k = k), 1, mean)  # Weighted KNN outlier score (mean)


    rank_WKNN_Outlier <- order(x=WKNN_Outlier, decreasing = TRUE) 
    WKNN_Result <- data.frame(ID = rank_WKNN_Outlier, score = WKNN_Outlier[rank_WKNN_Outlier])

    head(WKNN_Result, top_n)

    ge1 <- g0a +
      geom_point(data=dat[rank_WKNN_Outlier[1:top_n],], mapping=aes(x=x1,y=x2), shape=19, 
      color="red", size=2) +
      geom_text(data=dat[rank_WKNN_Outlier[1:top_n],],
      mapping=aes(x=(x1-0.5), y=x2, label=rank_WKNN_Outlier[1:top_n]), size=2.5)

    ge1

1 Ответ

1 голос
/ 28 октября 2019

Функция kNNdist(x=dat, k = k) создает вектор, а не матрицу, поэтому, когда вы пытаетесь выполнить функцию apply, она сообщает вам dim(X) must have a positive length (векторы имеют NULL затемнение).

Попробуйте:

WKNN_Outlier <- apply(kNNdist(x=dat, k = k, all=T), 1, mean)
...