анализ электронной почты enron в R - PullRequest
0 голосов
/ 09 июля 2019

Я пытался следовать инструкциям отсюда: https://rpubs.com/pprevos/enron

и когда я побежал:

#Create list of sender and receiver (inbox owner)
inboxes <- data.frame(
  from=apply(as.data.frame(emails), 1, function(x){readLines(x, warn=F)[3]}),
  to=emails, 
  stringsAsFactors=F
  )

Я получил эту ошибку:

Error in file(con, "r") : cannot open the connection
In addition: Warning message:
In file(con, "r") :

 Error in file(con, "r") : cannot open the connection 

У кого-нибудь есть предложения, как это можно исправить?

Отредактировано, чтобы добавить:

Чтобы прочитать файл, я запустил этот код и получил те же числа, перечисленные в учебном пособии, что я подумал (возможно, неточно), что это правильно.

# Enron Email Dataset: https://www.cs.cmu.edu/~./enron/
download.file("http://www.cs.cmu.edu/~enron/enron_mail_20150507.tar.gz", destfile = "enron_mail_20150507.tar.gz")
untar("enron_mail_20150507.tar.gz")

# E-mail corpus consists of nested folders per user with e-mails as text files
# Create list of all available e-mails

emails <- list.files("maildir/", full.names = T, recursive = T)
length(emails)
# Filter by inbox only
emails <- emails[grep("/inbox", emails)]
length(emails)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...