Я пытался следовать инструкциям отсюда:
https://rpubs.com/pprevos/enron
и когда я побежал:
#Create list of sender and receiver (inbox owner)
inboxes <- data.frame(
from=apply(as.data.frame(emails), 1, function(x){readLines(x, warn=F)[3]}),
to=emails,
stringsAsFactors=F
)
Я получил эту ошибку:
Error in file(con, "r") : cannot open the connection
In addition: Warning message:
In file(con, "r") :
Error in file(con, "r") : cannot open the connection
У кого-нибудь есть предложения, как это можно исправить?
Отредактировано, чтобы добавить:
Чтобы прочитать файл, я запустил этот код и получил те же числа, перечисленные в учебном пособии, что я подумал (возможно, неточно), что это правильно.
# Enron Email Dataset: https://www.cs.cmu.edu/~./enron/
download.file("http://www.cs.cmu.edu/~enron/enron_mail_20150507.tar.gz", destfile = "enron_mail_20150507.tar.gz")
untar("enron_mail_20150507.tar.gz")
# E-mail corpus consists of nested folders per user with e-mails as text files
# Create list of all available e-mails
emails <- list.files("maildir/", full.names = T, recursive = T)
length(emails)
# Filter by inbox only
emails <- emails[grep("/inbox", emails)]
length(emails)