Похоже, что предоставленная вами страница представляет XML-корпус Википедии, использованный на семинаре INEX в 2007 году.Я нашел этот сайт , на котором хранится набор данных Википедии, использовавшийся в 2009-2010 гг. (Я думаю, что и кластеризация), в INEX.Я думаю, что вы также можете использовать его.
На всякий случай вы можете использовать официальный дамп XML Викимедиа: Английские дампы Википедии .Больше информации и другие языки: База данных Википедии Скачать