Я хотел бы найти несколько тем, спасибо.
У вас есть несколько проектов здесь
Есть несколько хороших и интересных примеров небольших проектов Hadoop. Все описано очень хорошо, кроме того, вы можете найти исходный код и всю необходимую теорию.
MergeSort - фантастический / простой способ начать.Вы также можете пойти с генерацией количества слов для всех слов в файле .Хорошим источником данных является библиотека общедоступных книг Project Gutenberg (вы всегда можете объединить несколько книг вместе).подсчет слов, вы можете написать очень простую распределенную проверку орфографии.Питер Норвиг как потрясающая простая демонстрация средства проверки орфографии, написанной на Python.Хорошим упражнением будет расширение этого алгоритма для работы с файлом в распределенном режиме.