У меня есть генети c набор данных с идентификаторами вариантов гена:
VARIANT_ID
01_1254436_A_G_1
02_2254436_A_G_1
03_3255436_A_G_1
10_10344745_A_G_1
11_11256437_A_G_1
11_11343426_A_G_1
12_12222431_A_G_1
14_14200436_A_G_1
15_15256789_A_G_1
Я хочу создать новый столбец, содержащий часть этих данных с первым _ и последним _, так что смотрите чтобы вывести это:
VARIANT_ID newcol
01_1254436_A_G_1 1254436_A_G
02_2254436_A_G_1 2254436_A_G
03_3255436_A_G_1 3255436_A_G
10_10344745_A_G_1 10344745_A_G
11_11256437_A_G_1 11256437_A_G
11_11343426_A_G_1 11343426_A_G
12_12222431_A_G_1 12222431_A_G
14_14200436_A_G_1 14200436_A_G
15_15256789_A_G_1 15256789_A_G
Мне не удалось найти аналогичный вопрос в R, поэтому не знаю, как подойти к этому, я пробовал с str_split_fixed()
, но это не работает, приветствуется любая помощь по поводу того, какие функции попробовать
Входные данные:
dput(df)
structure(list(VARIANT_ID = c("01_1254436_A_G_1", "02_2254436_A_G_1",
"03_3255436_A_G_1", "10_10344745_A_G_1", "11_11256437_A_G_1",
"11_11343426_A_G_1", "12_12222431_A_G_1", "14_14200436_A_G_1",
"15_15256789_A_G_1")), row.names = c(NA, -9L), class = c("data.table",
"data.frame"))