Как получить / сканировать внешние ссылки с помощью Rcrawler - PullRequest
0 голосов
/ 02 июня 2019

Я довольно новичок в кодировании и R в частности. В настоящее время я использую Rcrawler для сканирования и сохранения всех ссылок на максимальной глубине 3. Однако с Rcrawler система идентифицирует только URL-адреса для внутренних ссылок и, похоже, игнорирует URL-адреса внешних ссылок. Я также использую функции сетевого анализа, которые идентифицируют внешние ссылки, но не предоставляют URL-адрес внешней ссылки.

Rcrawler (веб-сайт = "https://stackoverflow.com/questions/ask", no_cores = 4, no_conn = 4, MaxDepth = 4, NetworkData = TRUE, NetwExtLinks = TRUE, statslinks = TRUE)

В результате получается файл INDEX, который включает в себя список всех внутренних ссылок и файл NetwEdges, который включает в себя список всех ребер. Края включают узлы, которые не идентифицированы в моем файле INDEX, потому что они являются внешними ссылками.

Любая помощь очень ценится!

...