R-Ошибка "Имя столбца` textid` не должно дублироваться ". - PullRequest
0 голосов
/ 09 июля 2020

Я пытаюсь использовать OLCPT-Tool, разработанный Harisson et al (по запросу авторов). (https://onlinelibrary.wiley.com/doi/epdf/10.1002/smj.3023)

Он был разработан в R 3.4.0. Однако сейчас я пытаюсь запустить его на 3.6.3. Все необходимые пакеты устанавливаются правильно, но кажется, что dplyr / plyr / multidplyr (multidplyr и h20 были предоставлены автором) не работают в следующем абзаце при кластеризации и группировке данных из-за дублирования столбцов (?). Поскольку я относительно новичок в R, мне не удалось восстановить ошибку.

raw_data
readtext object consisting of 1 document and 0 docvars.
# Description: df[,3] [1 x 3]
  textid fulltext                                                          text       
  <chr>  <chr>                                                             <chr>      
1 2.txt  "Thanks, Ken. Good afternoon, everyone. I'm going to focus on ou~ "\"2.txt\"~

> # Tokenizes to the sentence/page level
> pages <- raw_data %>%
+   select(textid, fulltext) %>%
+   partition(textid, cluster = cluster) %>%
+   group_by(textid) %>%
+   do({
+     sentences <- tokenize_text2pages(.$fulltext)
+     data_frame(sentence = sentences)
+   }) %>%
+   collect() %>%
+   ungroup() %>%
+   arrange(textid)
Error in checkForRemoteErrors(lapply(cl, recvResult)) : 
  one node produced an error: Column name `textid` must not be duplicated.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...