У меня есть фрейм данных (df) с несколькими столбцами и строками, такими как:
A B C
0.6 a. b
0.9 c. d
1.1. e. f
1.2 g. h
1.4 I l
1.5. m. n
5.0 o. p
5.3 q. r
5.6. s. t
6.1. u v
6.5. w. z
6.9. y a
7.0. b. c
Код, который я ищу, должен вычислять разницу между каждым последовательным значением в столбце A (0,9-0,3 =0,3, 1,1-0,9 = 0,2 и т. Д.) И если разница больше, чем определенный порог (здесь мы устанавливаем как 3, но может быть другим), он будет поднаборать определенное количество строк (скажем, 3 в этом случае, нооно может быть и другим) до и после этого разрыва, когда разница больше установленного порога.Таким образом, в этом случае 5,0 - 1,5 = 3,5, что больше 3, 3 строки до 1,5 и 3 строки после 5,0 будут сохранены, остальные удалены.Любая идея о том, как написать такой код?
Вывод:
A B C
1.1. e. f
1.2 g. h
1.4 I l
1.5. m. n
5.0 o. p
5.3 q. r
5.6. s. t
6.1. u v
У меня есть несколько фреймов данных, поэтому значения в столбце A различны, код должен просматривать каждый фрейм данных по одномуодин и найти, где находится разрыв в столбце A на основе установленного порога.
Данные в формате dput
.
Ввод: data.frame df1
.
df1 <-
structure(list(A = c(0.6, 0.9, 1.1, 1.2, 1.4,
1.5, 4, 4.3, 4.6, 5.1, 5.5, 5.9, 6),
B = structure(c(1L, 3L, 4L, 5L, 6L, 7L, 8L,
9L, 10L, 11L, 12L, 13L, 2L), .Label = c("a.",
"b.", "c.", "e.", "g.", "I", "m.", "o.",
"q.", "s.", "u", "w.", "y"), class = "factor"),
C = structure(c(2L, 4L, 5L, 6L, 7L, 8L, 9L,
10L, 11L, 12L, 13L, 1L, 3L), .Label = c("a",
"b", "c", "d", "f", "h", "l", "n", "p",
"r", "t", "v", "z"), class = "factor")),
row.names = c(NA, -13L), class = "data.frame")
Вывод: data.frame out
.
out <-
structure(list(A = c(1.1, 1.2, 1.4, 1.5, 4,
4.3, 4.6, 5.1), B = structure(1:8,
.Label = c("e.", "g.", "I", "m.", "o.",
"q.", "s.", "u"), class = "factor"),
C = structure(1:8, .Label = c("f", "h", "l",
"n", "p", "r", "t", "v"), class = "factor")),
row.names = c(NA, -8L), class = "data.frame")
Это мой df:
structure(list(POS = c(207687374L, 207689227L, 207690871L, 207691563L,
207693563L, 207694165L, 207694357L, 207738077L, 207739127L, 207740272L,
207740868L, 207747296L, 207747984L, 207748107L), SNP = c("rs12130494",
"rs4844601", "rs10863358", "rs77357299", "rs12043913", "rs61822967",
"rs11117991", "rs7515905", "rs3886100", "rs12038575", "rs34883952",
"rs1752684", "rs17046851", "rs10127904"), Std_iHS = c(-1.52176,
-1.51905, -1.50286, 0.656487, -1.45251, 0.84325, -1.06089, -1.41041,
1.29513, 1.21325, 0.456717, -1.00933, -1.71468, 0.265969)), row.names =
21:34, class = "data.frame")
Вывод:
structure(list(POS = c(207691563L,
207693563L, 207694165L, 207694357L, 207738077L, 207739127L, 207740272L,
207740868L, ), SNP = c( "rs77357299", "rs12043913", "rs61822967",
"rs11117991", "rs7515905", "rs3886100", "rs12038575", "rs34883952",
), Std_iHS = c( 0.656487, -1.45251, 0.84325, -1.06089, -1.41041,
1.29513, 1.21325, 0.456717, )), row.names = 21:34, class = "data.frame")