Проблема Rblindlist и непоследовательная длина - PullRequest
0 голосов
/ 05 марта 2020

Я собираю данные с веб-страницы и получаю сообщение об ошибке ниже. Я думаю, что это может иметь отношение к шаблонам CSS, но я не вижу, чтобы найти такой, который является достаточно общим для сбора данных с веб-сайта.

Error in rbindlist(DATA, fill = TRUE) : Column 2 of item 42 is length 15 inconsistent with column 6 which is length 17. Only length-1 columns are recycled.

Также вот код, который я использовал с CSS паттернами.


pattern_names <- c("Username.Status","Topic.Title","Post.Date","Post","Reply.Number")

topic_filter <- c("topic\\=\\d+\\.\\d+", "board\\=12\\.\\d+$")

Rcrawler("https://ssdfacts.com/forum/index.php?board=12.0",
         no_cores = 4, no_conn = 4, MaxDepth = 4, RequestsDelay = 0.1,
         # dataUrlfilter = topic_data_filter,
         crawlUrlfilter = topic_filter,
         ExtractCSSPat = ssdfacts,
         PatternsNames = pattern_names,
         ManyPerPattern = TRUE,
         saveOnDisk = FALSE)

url_list <- rename( select(INDEX, Id, Url), PageID = Id)
url_list$PageID <- as.numeric(url_list$PageID)
ssdfacts_data <- rbindlist(DATA) %>%
  left_join(url_list, by="PageID")
...