Вы можете использовать регулярное выражение с некоторой помощью из пакета stringr
, чтобы получить необходимые данные. Например
library(stringr)
str_match(x, "gene_biotype\\s+\"([^\"]+)\"")
# [,1] [,2]
# [1,] "gene_biotype \"protein_coding\"" "protein_coding"
# [2,] "gene_biotype \n\"IG_V_gene\"" "IG_V_gene"
# [3,] "gene_biotype \n\"protein_coding\"" "protein_coding"
Возвращает матрицу с соответствием и категорией. Если вы просто хотите категорию, вы можете сделать
str_match(x, "gene_biotype\\s+\"([^\"]+)\"")[,2]
# [1] "protein_coding" "IG_V_gene" "protein_coding"