Я пытаюсь получить доступ к набору данных электронной почты Enron из Amazon (http://aws.amazon.com/datasets/917205) для проекта машинного обучения, над которым я работаю. Мне нужен небольшой объем данных для написания кода Map Reduce, прежде чем я смогу выполнить его по всему набору данных Но размер файла составляет 210 ГБ. Как извлечь небольшую часть файла, чтобы записать и протестировать мои задания MR?
Спасибо за любые указатели / предложения.
-S