Grep для цикла для определения имен в 1 миллион итераций, слишком медленно - PullRequest
0 голосов
/ 13 июня 2019

У меня есть список из 1 миллиона имен, и я хочу посмотреть их в каждой ячейке столбца, содержащего 150 тыс. Строк. Я использую Grep для поиска имен по одному и, если они найдены в любой ячейке, сделайте ячейку пустой. Я выполняю этот цикл 1 миллион раз, но это займет много времени. Как я могу ускорить цикл?

install.packages("babynames")
install.packages("randomNames")
names = babynames::babynames ###creating a random dataset for this example
temp_new2= data.frame(names$name) ##temp_new2 is a single column name dataframe

random_names<-strsplit((randomNames(n=1000,
                            which.names="first",
                            name.sep=" ",
                            sample.with.replacement=TRUE,
                            return.complete.data=FALSE
)
),"\n")
count = 0
t=0
list_of_names = list()

for (i in random_names)
    {
      if (length(grep(paste0("\\b",i,"\\b"),temp_new2$cleaned_names,ignore.case = TRUE)) != 0) 
      {
        p = length(grep(paste0("\\b",i,"\\b"),temp_new2$cleaned_names,ignore.case = TRUE))
        print(i)
        list_of_names = append(list_of_names,i)
      }
      else
      {t=0
       p=0
      }

      count = count + p
      temp_new2[grep(paste0("\\b",i,"\\b"),temp_new2$cleaned_names,ignore.case = TRUE),]<- ""

    }

для запуска цикла из 1000 имен требуется около 4 минут, поэтому для запуска цикла из 1 миллиона имен потребуется 4000 минут

1 Ответ

1 голос
/ 13 июня 2019

Я немного поиграл и получил следующие результаты с микробенчмарком:

microbenchmark::microbenchmark(your_fun(), fun_initialize_list(), fun_list_one_grep(), fun_lapply())
Unit: milliseconds
                  expr      min       lq     mean   median       uq       max neval
            your_fun() 51.02420 52.61047 55.19147 54.20093 55.98069  77.55637   100
 fun_initialize_list() 50.86644 52.81099 55.52799 54.23134 56.37564 102.21945   100
   fun_list_one_grep() 25.68943 26.31398 28.51748 27.73832 28.46759  56.01566   100
          fun_lapply() 25.22339 26.02261 27.83738 27.26183 27.90310  43.80443   100

Функции определены ниже и являются просто оболочкой для различных процедур. Как уже указывал @RuiBarradas, вызов grep выполняется 3 раза. Сокращение этого, уменьшает время выполнения на 50% в моем случае.

Ваш подход

your_fun <- function() {

  count <- 0
  t <- 0
  list_of_names <- list()

  for (i in random_names) {
    if (length(grep(paste0("\\b",i,"\\b"), temp_new2$cleaned_names,ignore.case = TRUE)) != 0) {
      p <- length(grep(paste0("\\b",i,"\\b"), temp_new2$cleaned_names,ignore.case = TRUE))
      list_of_names <- append(list_of_names,i)
    } else {
      t <- 0
      p <- 0
    }
    count <- count + p
    temp_new2[grep(paste0("\\b",i,"\\b"),temp_new2$cleaned_names,ignore.case = TRUE),] <- ""
  }

}

Инициализация списка перед циклом for
Вы правы, это не сильно улучшило скорость, вероятно потому, что grep занимает так много времени.

fun_initialize_list <- function() {
  count <- 0
  t <- 0
  list_of_names <- logical(length(random_names))
  k <- 0

  for (i in random_names) {
    k <- k + 1
    if (length(grep(paste0("\\b",i,"\\b"), temp_new2$cleaned_names,ignore.case = TRUE)) != 0) {
      p <- length(grep(paste0("\\b",i,"\\b"), temp_new2$cleaned_names,ignore.case = TRUE))
      list_of_names[k] <- TRUE
    } else {
      t <- 0
      p <- 0
      list_of_names[k] <- FALSE
    }
    count <- count + p
    temp_new2[grep(paste0("\\b",i,"\\b"),temp_new2$cleaned_names,ignore.case = TRUE),] <- ""
  }

  list_of_names <- random_names[list_of_names]
}

Использование только одного вызова для grep

fun_list_one_grep <- function() {
  count <- 0
  t <- 0
  list_of_names <- logical(length(random_names))
  k <- 0

  for (i in random_names) {
    k <- k + 1
    name_match <- grep(paste0("\\b",i,"\\b"), temp_new2$cleaned_names, ignore.case = TRUE)
    len_match <- length(name_match)
    if (len_match != 0) {
      p <- len_match
      list_of_names[k] <- TRUE
    } else {
      t <- 0
      p <- 0
      list_of_names[k] <- FALSE
    }
    count <- count + p
    temp_new2[name_match, ] <- ""
  }

  list_of_names <- random_names[list_of_names]
}

Подход с удовольствием

fun_lapply <- function() {
  random_matches <- lapply(random_names, function(i) {
    grep(paste0("\\b",i,"\\b"), temp_new2$cleaned_names, ignore.case = TRUE)
  })

  temp_new2[unlist(random_matches), ] <- ""
  count <- length(unique(unlist(random_matches)))

  list_of_names <- random_names[!sapply(random_matches, is.null)]
}

Данные

names = babynames::babynames ###creating a random dataset for this example
temp_new2 = data.frame(cleaned_names = names$name[1:1000], 
                       stringsAsFactors = FALSE) ##temp_new2 is a single column name dataframe

set.seed(23)

random_names <- strsplit((
  randomNames::randomNames(
    n = 100,
    which.names = "first",
    name.sep = " ",
    sample.with.replacement = TRUE,
    return.complete.data = FALSE
  )), "\n")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...