Несколько вопросов о вашем вопросе о сканировании и википедии.
Вы связались с дампами данных Википедии , и вы можете использовать проект Cloud9 из UMD для работы с этими данными в Hadoop.
У них есть страница об этом: Работа с Википедией
Другой источник данных для добавления в список:
- ClueWeb09 - 1 миллиард веб-страниц, собранных в период с января по февраль. Сжатые 5 ТБ.
Использование сканера для генерации данных должно быть размещено в отдельном вопросе к вопросу о Hadoop / MapReduce, я бы сказал.