Question

Я работаю с некоторыми генетическими данными, и один из моих столбцов не в том формате, в котором я хочу его видеть. Я не знаю, сколько здесь говорится о биологии, но я пытаюсь исправить то, как мои аминокислоты отображаются в моих данных.

Аминокислоты, очевидно, имеют название, но они также имеют трехбуквенное сокращение и однобуквенное сокращение. Мои данные содержат аминокислоты в 3-буквенной форме, но я хочу заменить их на 1-буквенное сокращение. Вот пример моих данных.

 chr location           effect   impact AA_change
   1    12543 missense_variant MODERATE  p.Ala12Val
   1    52367 missense_variant MODERATE  p.Leu54Pro
   1   752347 missense_variant MODERATE  p.Met99Ser
   1   984645 missense_variant MODERATE  p.Lys34Ile
   1   989845 missense_variant MODERATE  p.Arg4Cys
   1   999854 missense_variant MODERATE  p.His43Gly
   1   999855 missense_variant MODERATE  p.Glu14Phe

dat <- structure(list(chr = c(1L, 1L, 1L, 1L, 1L, 1L, 1L), location = c(12543L, 
52367L, 752347L, 984645L, 989845L, 999854L, 999855L), effect = c("missense_variant", 
"missense_variant", "missense_variant", "missense_variant", "missense_variant", 
"missense_variant", "missense_variant"), impact = c("MODERATE", 
"MODERATE", "MODERATE", "MODERATE", "MODERATE", "MODERATE", "MODERATE"
), AA_change = c("Ala12Val", "Leu54Pro", "Met99Ser", "Lys34Ile", 
"Arg4Cys", "His43Gly", "Glu14Phe")), .Names = c("chr", "location", 
"effect", "impact", "AA_change"), row.names = c(NA, -7L), class = "data.frame")

Вот список трехбуквенных аминокислот и их одно из лучших сокращений.

  Ala == A
  Arg == R
  Asn == N
  Asp == D
  Cys == C
  Glu == E
  Gln == Q
  Gly == G
  His == H
  Ile == I
  Leu == L
  Lys == K
  Met == M
  Phe == F
  Pro == P
  Ser == S
  Thr == T
  Trp == W
  Tyr == Y
  Val == V

Я чувствую, что для этого есть простая функция, но я пытаюсь понять, как это сделать. Я привык менять только одну часть столбца, а не две вещи одновременно. Так что я спрашиваю, как я могу изменить это

Ala12Val
Leu54Pro
Met99Ser
Lys34Ile
Arg4Cys
His43Gly
Glu14Phe

К этому

A12V
L54P
M99S
K32I
R4C
E14F

Это что-то, что можно сделать?

Onyambu · Answer 1 · 02 июля 2018

b=which(adist(dat2$V1,dat$AA_change,partial = T)==0,T)

dat$AA_change1=`regmatches<-`(dat$AA_change,gregexpr("\\D+",dat$AA_change),
                                 value=split(dat2$V3[b[,1]],b[,2]))

dat
  chr location           effect   impact AA_change AA_change1
1   1    12543 missense_variant MODERATE  Ala12Val       A12V
2   1    52367 missense_variant MODERATE  Leu54Pro       L54P
3   1   752347 missense_variant MODERATE  Met99Ser       M99S
4   1   984645 missense_variant MODERATE  Lys34Ile       I34K
5   1   989845 missense_variant MODERATE   Arg4Cys        R4C
6   1   999854 missense_variant MODERATE  His43Gly       G43H
7   1   999855 missense_variant MODERATE  Glu14Phe       E14F



dat2 = read.table(text="Ala == A
  Arg == R
  Asn == N
  Asp == D
  Cys == C
  Glu == E
  Gln == Q
  Gly == G
  His == H
  Ile == I
  Leu == L
  Lys == K
  Met == M
  Phe == F
  Pro == P
  Ser == S
  Thr == T
  Trp == W
  Tyr == Y
  Val == V")[-2]

Frank · Answer 2 · 02 июля 2018

Если он всегда имеет форму {кислота, числа, кислота}, вы можете разбить его на три столбца и сделать замену с помощью match или объединения. С data.table это выглядит как ...

library(data.table)
setDT(dat)

# put your mapping into a nicer format
abbrDT = fread(header = FALSE,"
  Ala == A
  Arg == R
  Asn == N
  Asp == D
  Cys == C
  Glu == E
  Gln == Q
  Gly == G
  His == H
  Ile == I
  Leu == L
  Lys == K
  Met == M
  Phe == F
  Pro == P
  Ser == S
  Thr == T
  Trp == W
  Tyr == Y
  Val == V")[, .(abbr3 = V1, abbr1 = V3)] 

# split the column
patt = "(?<=\\d)(?=\\D)|(?<=\\D)(?=\\d)"
dat[, c("AA1", "num", "AA2") := tstrsplit(AA_change, patt, perl=TRUE)]

# substitute for each part
dat[abbrDT, on=.(AA1 = abbr3), AA1 := abbr1]
dat[abbrDT, on=.(AA2 = abbr3), AA2 := abbr1]

, что дает

   chr location           effect   impact AA_change AA1 num AA2
1:   1    12543 missense_variant MODERATE  Ala12Val   A  12   V
2:   1    52367 missense_variant MODERATE  Leu54Pro   L  54   P
3:   1   752347 missense_variant MODERATE  Met99Ser   M  99   S
4:   1   984645 missense_variant MODERATE  Lys34Ile   K  34   I
5:   1   989845 missense_variant MODERATE   Arg4Cys   R   4   C
6:   1   999854 missense_variant MODERATE  His43Gly   H  43   G
7:   1   999855 missense_variant MODERATE  Glu14Phe   E  14   F

При желании снова объедините столбцы и удалите ненужные столбцы:

dat[, AA_change := paste0(AA1, num, AA2)]

dat[, c("AA1", "num", "AA2") := NULL]

zx8754 · Answer 3 · 02 июля 2018

Выполните поиск аминокислот, затем получите подстроку первых 3 букв и карту, извлеките цифры, подстроку последних 3 букв и карту. Затем вставьте все вместе.

# lookup map
AAmap <- setNames(c("A","R","N","D","C","E","Q","G","H","I","L","K","M","F","P","S","T","W","Y","V"),
                  c("Ala","Arg","Asn","Asp","Cys","Glu","Gln","Gly","His","Ile","Leu","Lys","Met","Phe","Pro","Ser","Thr","Trp","Tyr","Val"))

# get first 3 map to AA, get digits, get last 3 map to AA
dat$AA_change_short <-
  paste0(AAmap[ substr(dat$AA_change, 1, 3) ],
         gsub("[^\\d]+", "", dat$AA_change, perl = TRUE),
         AAmap[ substr(dat$AA_change, nchar(dat$AA_change) - 2, nchar(dat$AA_change)) ])

dat
#   chr location           effect   impact AA_change AA_change_short
# 1   1    12543 missense_variant MODERATE  Ala12Val            A12V
# 2   1    52367 missense_variant MODERATE  Leu54Pro            L54P
# 3   1   752347 missense_variant MODERATE  Met99Ser            M99S
# 4   1   984645 missense_variant MODERATE  Lys34Ile            K34I
# 5   1   989845 missense_variant MODERATE   Arg4Cys             R4C
# 6   1   999854 missense_variant MODERATE  His43Gly            H43G
# 7   1   999855 missense_variant MODERATE  Glu14Phe            E14F

Как манипулировать двумя кусками колонны?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как манипулировать двумя кусками колонны?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы