Я хочу извлечь некоторую информацию из раздела функций записи NCBI, и я использую этот код.
Скачать данные
fetch2 <- entrez_fetch(db = "nucleotide", id = 1028916732,
rettype = "gbc", retmode="xml", parsed = TRUE)
Для анализа данных
xmltop = xmlRoot(fetch2) #gives content of root
class(xmltop)#"XMLInternalElementNode" "XMLInternalNode" "XMLAbstractNode"
xmlName(xmltop)
xmlSize(xmltop)
xmlName(xmltop[[1]])
features <- xmltop[[1]][[20]][[1]][[4]]
Меня интересуют только функции
<INSDFeature_quals>
<INSDQualifier>
<INSDQualifier_name>organism</INSDQualifier_name>
<INSDQualifier_value>Alanphillipsia aloeigena</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>mol_type</INSDQualifier_name>
<INSDQualifier_value>genomic DNA</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>strain</INSDQualifier_name>
<INSDQualifier_value>CPC 21286</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>isolation_source</INSDQualifier_name>
<INSDQualifier_value>leaves</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>host</INSDQualifier_name>
<INSDQualifier_value>Aloe melanacantha</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>culture_collection</INSDQualifier_name>
<INSDQualifier_value>CBS:136408</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>culture_collection</INSDQualifier_name>
<INSDQualifier_value>CPC:21286</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>type_material</INSDQualifier_name>
<INSDQualifier_value>culture from holotype of Alanphillipsia aloeigena</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>db_xref</INSDQualifier_name>
<INSDQualifier_value>taxon:1414674</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>country</INSDQualifier_name>
<INSDQualifier_value>South Africa: Namakwaland, Koegap Nature Reserve</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>collected_by</INSDQualifier_name>
<INSDQualifier_value>M.J. Wingfield</INSDQualifier_value>
</INSDQualifier>
<INSDQualifier>
<INSDQualifier_name>note</INSDQualifier_name>
<INSDQualifier_value>ex-holotype culture of Alanphillipsia aloeigena</INSDQualifier_value>
</INSDQualifier>
</INSDFeature_quals>
Я хотел бы создать таблицу типа
Organism | culture_collection | host
Alanphillipsia aloeigena | CBS:136408 | Aloe melanacantha
Однако я не понимаю, как получить данные с помощью
<INSDQualifier_name>
<INSDQualifier_value>
Я видел некоторые учебные пособия от Pubmed, и они хорошо работают, но выходные данные имеют другую структуру.
В конце я хочу сделать цикл для извлечения данных из списка идентификаторов, и поскольку не все записи имеют одинаковую структуру, я хотел бы использовать теги типа host
organism
для получения этой информации.