Я пытаюсь удалить сайт ncbi (https://www.ncbi.nlm.nih.gov/protein/29436380), чтобы получить информацию о белке. Мне нужно получить доступ к полям gene_synonyms и GeneID. Я попытался найти соответствующие узлы с помощью аддона selectorGadget в chrome и с инспектором кода в ff. Я попробовал этот код:
require("dplyr")
require("rvest")
require("stringr")
GIwebPage <- read_html("https://www.ncbi.nlm.nih.gov/protein/29436380")
TestHTML <- GIwebPage %>% html_node("div.grid , div#maincontent.col.nine_col , div.sequence , pre.genebank , .feature") %>% html_text(trim = TRUE)
Затем я пытаюсь найти соответствующий текст, но его просто нет там. содержимое столбца справа.
str_extract_all(TestHTML, pattern = "(protein).{30}")
[[1]]
[1] "protein codes including ambiguities a"
[2] "protein sequence for myosin-9 (NP_00"
[3] "protein should not be confused with t"
[4] "protein, partial [Homo sapiens]gi|294"
[5] "protein codes including ambiguities a"
Я пробовал столько комбинаций выбора узлов с помощью html_node (), что больше не знаю, что попробовать. Это содержание скрыто в какой-то структуре, которую я не вижу? или я просто недостаточно квалифицирован, чтобы понять, какой узел выбрать?
Большое спасибо, Хосе.