Я пытаюсь использовать OLCPT-Tool, разработанный Harisson et al (по запросу авторов). (https://onlinelibrary.wiley.com/doi/epdf/10.1002/smj.3023)
Он был разработан в R 3.4.0. Однако сейчас я пытаюсь запустить его на 3.6.3. Все необходимые пакеты устанавливаются правильно, но кажется, что dplyr / plyr / multidplyr (multidplyr и h20 были предоставлены автором) не работают в следующем абзаце при кластеризации и группировке данных из-за дублирования столбцов (?). Поскольку я относительно новичок в R, мне не удалось восстановить ошибку.
raw_data
readtext object consisting of 1 document and 0 docvars.
# Description: df[,3] [1 x 3]
textid fulltext text
<chr> <chr> <chr>
1 2.txt "Thanks, Ken. Good afternoon, everyone. I'm going to focus on ou~ "\"2.txt\"~
> # Tokenizes to the sentence/page level
> pages <- raw_data %>%
+ select(textid, fulltext) %>%
+ partition(textid, cluster = cluster) %>%
+ group_by(textid) %>%
+ do({
+ sentences <- tokenize_text2pages(.$fulltext)
+ data_frame(sentence = sentences)
+ }) %>%
+ collect() %>%
+ ungroup() %>%
+ arrange(textid)
Error in checkForRemoteErrors(lapply(cl, recvResult)) :
one node produced an error: Column name `textid` must not be duplicated.