Question

Хвост df:

          fruit Letter Points     A    B     C       D
16       cherry      P   7876 11.43 7.23 13.72 4.29.01
17 chili pepper      Q   7831 10.85 7.18 14.14 4.33.90
18   clementine      R   7827 11.07 7.24 14.19 4.56.52
19   cloudberry      S   7704 10.38 7.73 14.32       X
20      coconut      T   7634 11.21 7.12 13.25 4.57.92
21    cranberry      U   7346 10.88 6.65 13.80 4.32.50

Это кажется распространенным вопросом, но все ответы, которые я видел, основаны на фильтрации либо по одному столбцу, либо по всем столбцам.Здесь я хочу удалить строки, содержащие «X» в только столбцах от A до D.

На основании предыдущих ответов, если я хочу фильтровать только по одному столбцу, я могу сделать:

df <- df[!grepl("X", df$D),]

Это прекрасно работает, но я могу сделать это только вручную, поскольку знаю a priori , где "X".Поскольку я хочу фильтровать многие dfs одного и того же формата, мне нужен способ фильтрации по столбцам от A до D.

Интуитивно я решил, что могу просто расширить аргумент в grepl, чтобы включить столбцы, которые я хочу отфильтроватьon:

df <- df[!grepl("X", df[,c("A","B","C","D")]),] или df1 <- df1[!grepl("X", df1[,4:7]),]

Однако это приводит к удалению строк, которые не содержат «X», не говоря уже о букве в столбцах AD.Я предполагаю, что это потому, что семейство функций grep не принимает несколько векторов?

В идеале мне бы хотелось базовое решение, так как я нахожусь в тупике, что должно быть легко понять.

Full df:

df <- structure(list(fruit = c("apple", "apricot", "avocado", "bell pepper", 
"bilberry", "blackberry", "blood orange", "blueberry", "boysenberry", 
"canary melon", "cantaloupe", "cherimoya", "chili pepper", "clementine", 
"cloudberry", "cranberry"), Letter = c("A", "B", "C", "E", "F", 
"G", "I", "J", "K", "M", "N", "O", "Q", "R", "S", "U"), Points = c(8900, 
8757, 8742, 8554, 8531, 8461, 8206, 8153, 8113, 8106, 8050, 8017, 
7831, 7827, 7704, 7346), A = c("10.54", "10.64", "10.69", "10.64", 
"10.76", "10.99", "10.81", "11.00", "10.84", "11.05", "10.72", 
"10.84", "10.85", "11.07", "10.38", "10.88"), B = c("8.03", "7.88", 
"7.78", "7.24", "7.92", "7.59", "7.68", "7.32", "7.37", "7.34", 
"7.18", "6.89", "7.18", "7.24", "7.73", "6.65"), C = c("16.68", 
"15.19", "14.14", "15.72", "14.50", "14.75", "15.64", "14.19", 
"15.09", "15.10", "14.66", "14.20", "14.14", "14.19", "14.32", 
"13.80"), D = c("4.42.33", "4.35.06", "4.35.59", "4.23.13", "4.23.23", 
"4.29.93", "4.48.64", "4.21.06", "4.30.12", "4.52.35", "5.00.38", 
"4.48.11", "4.33.90", "4.56.52", "X", "4.32.50")), row.names = c(1L, 
2L, 3L, 5L, 6L, 7L, 9L, 10L, 11L, 13L, 14L, 15L, 17L, 18L, 19L, 
21L), class = "data.frame")

dmca · Answer 1 · 15 ноября 2018

Использование dplyr для удаления любых строк, где значение в любом из столбцов A, B, C или D равно 'X', выглядит следующим образом:

library(dplyr)
filter_at(df, vars(A:D), any_vars(!. == 'X'))

Onyambu · Answer 2 · 15 ноября 2018

В зависимости от структуры ваших данных:

df[!grepl('X',do.call(paste,df[4:7])),]

должно работать.

Если у вас вообще есть другие значения, например 23X.4, и вы хотите сохранить их, тогдаВы можете использовать регулярные выражения, как показано ниже:

df[!grepl('(?m)^X$',do.call(paste,c(sep='\n',df[4:7])),perl = T),]

Gregor · Answer 3 · 15 ноября 2018

cols = c("A",  "B", "C", "D")
df[! rowSums(df[cols] == "X"), ]

Это удалит строки из df, где значение любого из cols равно "X" (не содержит "X", как некоторые другие ответыделают).

akrun · Answer 4 · 15 ноября 2018

Мы могли бы пройтись по интересующим столбцам, проверить, равны ли значения "X" (на основе данных, это точное совпадение), затем Reduce list логических vector содин vector с | и использовать его для подмножества данных

df[!Reduce(`|`, lapply(df[c("A", "B", "C", "D")], `==`, "X")),]

или с grepl (если он не точный)

df[!Reduce(`|`, lapply(df[c("A", "B", "C", "D")], grepl, pattern = "X")),]

или используйте tidyverse

library(tidyverse)
df %>% 
   filter_at(vars(A:D), any_vars(!grepl('X', .)))

Как отфильтровать строки в подмножестве столбцов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как отфильтровать строки в подмножестве столбцов?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов