Reddit возвращает только 25 сообщений вместо 100 при использовании rvest - PullRequest
0 голосов
/ 31 января 2019

Я использую это руководство в качестве примера для очистки времени публикации сообщений в Reddit.

В нем говорится об использовании инструмента SelectorGadget для обхода изучения других языков, вот чтоЯ сделал.

Хотя на странице old.reddit.com показано 100 сообщений (поэтому необходимо записать 100 раз), из моего кода фактически извлечено только 25 разных значений времени.Вот как выглядит мой код:

library(rvest)

url <- 'https://old.reddit.com/'

rawdata <- read_html(url)

rawtime <- html_nodes(rawdata, '.live-timestamp')
  #".live-timestamp" was obtained using the Chrome extension "SelectorGadget" 

finalresult <- bind_rows(lapply(xml_attrs(rawtime), function(x) data.frame(as.list(x), stringsAsFactors=FALSE)))

Ответы [ 2 ]

0 голосов
/ 05 июня 2019

Вы должны войти в систему или использовать параметр ?limit=100, чтобы получить 100 элементов в списке.

См. документацию API для получения дополнительной информации:

limit: the maximum number of items desired (default: 25, maximum: 100)

0 голосов
/ 31 января 2019

Кроме того, вы можете использовать PRAW для получения информации от Reddit.Это конкретное решение для вашей проблемы, но оно может работать.

https://praw.readthedocs.io/en/latest/

И в subreddit r / redditdev

...