Как извлечь данные электронной почты в R? - PullRequest
3 голосов
/ 05 июня 2010

Как я могу экспортировать свою базу данных электронной почты из Gmail (или Thunderbird) в R?

Как есть пакет rgoogledocs и twitteR, есть ли пакет gmailR или стандартный формат для экспорта электронных писем в пакеты статистики?

Tal

Ответы [ 5 ]

4 голосов
/ 05 июня 2010

Стандартная электронная почта (в системе Unix) - это либо файл mbox (содержащий несколько сообщений), либо настройка maildir, где каждая почта представляет собой файл в каталоге.

В любом случае, это текст ascii. Вот как MUA (почтовые агенты - ваш почтовый ридер) ортогональны вашему MTA (почтовый транспортный агент - программное обеспечение почтового сервера, такое как exim, qmail, postfix, ...). АПС может использовать сетевой протокол, такой как POP3 или IMAP, для передачи почтовых файлов клиенту, и в этом случае клиент (который может быть Gmail или Thunderbird) больше не видит базовые файлы. Поэтому вам, возможно, придется узнать, как экспортировать свою почту из любого используемого вами бэкэнда, а затем прочитать его.

Это пока не имеет ничего общего с R или программированием - если только вы не чувствуете, что должны расширять R средствами POP3 или IMAP для подключения к (удаленному) почтовому серверу.

2 голосов
/ 20 декабря 2016

Нужно сначала установить library(edeR). Возможно, потребуется вручную установить Java 64 в Windows 8, возможно, потребуется включить доступ IMAP в Gmail.

dat3 <-extractKeyword(username="YOURLOGIN@gmail.com",
                  password="YouRPaSS",
                  kw="adsense",
                  nmail=5)

При этом будет загружено 5 писем с ключевым словом «adsense».

2 голосов
/ 21 июля 2013

Теперь есть пакет R для извлечения данных электронной почты. Этот пакет все еще находится в стадии тестирования, но любой может установить его с GitHub, имя пакета edeR. Прямо сейчас это может извлечь данные электронной почты из Gmail с поддержкой IMAP.

2 голосов
/ 05 июня 2010

Gmail и Thunderbird - это не одно и то же ... вы можете включить учетную запись Gmail в Thunderbird, следовательно, экспортировать каждое электронное письмо в файл ASCII, следовательно, написать пакетный скрипт R, который будет принимать каждый файл и импортировать его в R как объект ... вы поняли. =) * * Тысяча одна

Обычно я пытаюсь избежать "пешеходного подхода" ... но у меня складывается впечатление, что вы склонны использовать R в качестве языка программирования "общего назначения" ... Python или JAVA, на С другой стороны, это может быть весьма эффективно, поэтому вы можете написать (или попросить кого-нибудь написать это для вас) скрипт, который «принесет» ваши данные в желаемом формате, а затем сократит их до R. R сильно повзрослел, и это не так это всего лишь инструмент для статистического анализа, но всегда полезно использовать какой-либо широко известный язык программирования для обработки ваших данных.

Так что ... Закатайте рукава и погрузитесь в Python (JAVA, C ... все, что вам хочется погрузиться)!

P.S. Я считаю, что это как-то связано с твоим предыдущим постом с облаком слов ...

1 голос
/ 02 июня 2018

После того, как вы экспортировали свои электронные письма в формате mbox на свой компьютер, вы можете использовать как пакеты tm, так и tm.plugin.mail в R. Последний позволяет экспортировать ваши электронные письма в R.

require("tm")
require("tm.plugin.mail")

Затем, чтобы преобразовать ваши электронные письма из формата mbox (т.е. нескольких писем в одном ящике) в формат eml (то есть, каждого письма в одном файле): convert_mbox_eml (mbox, dir). В приведенном ниже примере mbox представлен как yourmails.mbox и описывает местоположение mbox. Выходной каталог задается "your_mails".

convert_mbox_eml("yourmails.mbox", "your_mails")

Вы можете прочитать документ электронной почты и проверить его с помощью следующих команд R.

mails <- VCorpus(DirSource("your_mails/"), readerControl = list(reader = 
         readMail))

inspect(mails)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...