Не удается получить доступ к указанному c контенту на странице html с помощью rvest и selectorGadget - PullRequest
1 голос
/ 16 апреля 2020

Я пытаюсь удалить сайт ncbi (https://www.ncbi.nlm.nih.gov/protein/29436380), чтобы получить информацию о белке. Мне нужно получить доступ к полям gene_synonyms и GeneID. Я попытался найти соответствующие узлы с помощью аддона selectorGadget в chrome и с инспектором кода в ff. Я попробовал этот код:

require("dplyr")
require("rvest")
require("stringr")
GIwebPage <- read_html("https://www.ncbi.nlm.nih.gov/protein/29436380")
TestHTML <- GIwebPage %>% html_node("div.grid , div#maincontent.col.nine_col , div.sequence , pre.genebank , .feature") %>% html_text(trim = TRUE)

Затем я пытаюсь найти соответствующий текст, но его просто нет там. содержимое столбца справа.

str_extract_all(TestHTML, pattern = "(protein).{30}")
 [[1]]
 [1] "protein codes including ambiguities a"
 [2] "protein sequence for myosin-9  (NP_00"
 [3] "protein should not be confused with t"
 [4] "protein, partial [Homo sapiens]gi|294"
 [5] "protein codes including ambiguities a"

Я пробовал столько комбинаций выбора узлов с помощью html_node (), что больше не знаю, что попробовать. Это содержание скрыто в какой-то структуре, которую я не вижу? или я просто недостаточно квалифицирован, чтобы понять, какой узел выбрать?

Большое спасибо, Хосе.

1 Ответ

1 голос
/ 16 апреля 2020

Страница динамически загружает информацию. Основная информация хранится в другом месте.
Используя инструменты разработчика из вашего устройства, найдите ссылку:

enter image description here

Информация, которой вы являетесь ищите это магазин в "viewer.fcgi", щелкните правой кнопкой мыши, чтобы скопировать ссылку.

См. похожие вопросы / ответы: R не принимает запрос xpath

...