Question

Я получил текстовый файл следующим образом:

-- SMART RESULTS TEXTFORMAT --
USER_PROTEIN_ID = SAUSA300_RS14200
SMART_PROTEIN_ID = uniprot|Q5HCS9|Q5HCS9_STAAC
NUMBER_OF_FEATURES_FOUND=1
DOMAIN=transmembrane_domain
START=7
END=29
EVALUE=0
TYPE=INTRINSIC
STATUS=visible|OK
-- FINISHED --
-- SMART RESULTS TEXTFORMAT --
USER_PROTEIN_ID = SAUSA300_RS11975
SMART_PROTEIN_ID = uniprot|A6QJ58|A6QJ58_STAAE
NUMBER_OF_FEATURES_FOUND=0
-- FINISHED --
-- SMART RESULTS TEXTFORMAT --
USER_PROTEIN_ID = SAUSA300_RS14395
SMART_PROTEIN_ID = uniprot|Q2FDK5|SRAP_STAA3
NUMBER_OF_FEATURES_FOUND=1
DOMAIN=Pfam:Gram_pos_anchor
START=2221
END=2258
EVALUE=6e-08
TYPE=PFAM
STATUS=visible|OK
-- FINISHED --

Я хочу получить информацию между «SMART RESULTS TEXTFORMAT» и «FINISHED» и экспортировать каждую часть для разных USER_PROTEIN_ID в каждую строку таблицы.

Может ли кто-нибудь предоставить некоторые коды? Я получил несколько сложных самостоятельно. Он оказался в кадре данных, но не знаю, как продолжить экспорт в каждую строку в Excel.

start="-- SMART RESULTS TEXTFORMAT --"
end="-- FINISHED --"
n=nrow(myfile)
index=c(1:n)
myfile=cbind(index,myfile)
starline=as.data.frame(grep(start,myfile[,2]))
endline=as.data.frame(grep(end,myfile[,2]))
indexlist=cbind(starline,endline)
newlist=character(length = n)
for (i in 1:n) {
 index1=indexlist[i,1]+1
 index2=indexlist[i,2]-1
newlist[i]=as.data.frame(as.data.frame(myfile[index1:index2,2]))
}

JBGruber · Answer 1 · 10 января 2019

Я думаю, это должно хорошо сработать для вас:

library("magrittr")
data <- split(txt, cumsum(grepl("-- SMART RESULTS TEXTFORMAT --", txt))) %>% 
  lapply(function(i) i[!grepl("-- SMART RESULTS TEXTFORMAT --|-- FINISHED --", i)]) %>% 
  lapply(function(i) {
    read.table(text = i, sep = "=", header = FALSE) %>% 
      t(.) %>% 
      tibble::as_tibble() %>% 
      magrittr::set_colnames(trimws(.[1, ])) %>% 
      slice(-1)
  }) %>% 
  plyr::rbind.fill()

Для экспорта я очень рекомендую rio:

rio::export(data, "data.xlsx")

Вот как я получил данные (я записываю текст и читаю его обратно, чтобы имитировать и эту часть):

txt <- "-- SMART RESULTS TEXTFORMAT --
USER_PROTEIN_ID = SAUSA300_RS14200
SMART_PROTEIN_ID = uniprot|Q5HCS9|Q5HCS9_STAAC
NUMBER_OF_FEATURES_FOUND=1
DOMAIN=transmembrane_domain
START=7
END=29
EVALUE=0
TYPE=INTRINSIC
STATUS=visible|OK
-- FINISHED --
-- SMART RESULTS TEXTFORMAT --
USER_PROTEIN_ID = SAUSA300_RS11975
SMART_PROTEIN_ID = uniprot|A6QJ58|A6QJ58_STAAE
NUMBER_OF_FEATURES_FOUND=0
-- FINISHED --
-- SMART RESULTS TEXTFORMAT --
USER_PROTEIN_ID = SAUSA300_RS14395
SMART_PROTEIN_ID = uniprot|Q2FDK5|SRAP_STAA3
NUMBER_OF_FEATURES_FOUND=1
DOMAIN=Pfam:Gram_pos_anchor
START=2221
END=2258
EVALUE=6e-08
TYPE=PFAM
STATUS=visible|OK
-- FINISHED --"
writeLines(txt, "test.txt")
txt <- readLines("test.txt")

bob1 · Answer 2 · 10 января 2019

Код, который вы написали, выглядит хорошо.

Для экспорта в Excel посмотрите пакет xlsx

Р: Как извлечь информацию из текста между двумя ключевыми словами и экспортировать в таблицу?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Р: Как извлечь информацию из текста между двумя ключевыми словами и экспортировать в таблицу?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов