Фонд Викимедиа только что выпустил InputReader для интерфейса потоковой передачи Hadoop, который может читать сжатые файлы полного дампа bz2 и отправлять его вашим картографам. Модуль, отправляемый мапперу, - это не целая страница, а две ревизии (так что вы можете запустить diff для двух ревизий). Это первоначальный выпуск, и я уверен, что будут некоторые ошибки, но, пожалуйста, дайте ему знать и помогите нам протестировать его.
Для этого InputReader требуется Hadoop 0.21, поскольку Hadoop 0.21 поддерживает потоковую передачу файлов bz2. Исходный код доступен по адресу: https://github.com/whym/wikihadoop