Получение небольшой части набора данных от Amazon S3 - PullRequest
1 голос
/ 23 февраля 2012

Я пытаюсь получить доступ к набору данных электронной почты Enron из Amazon (http://aws.amazon.com/datasets/917205) для проекта машинного обучения, над которым я работаю. Мне нужен небольшой объем данных для написания кода Map Reduce, прежде чем я смогу выполнить его по всему набору данных Но размер файла составляет 210 ГБ. Как извлечь небольшую часть файла, чтобы записать и протестировать мои задания MR?

Спасибо за любые указатели / предложения.

-S

...