Как бы получить подмножество (скажем, 100 МБ) страниц Википедии? Я обнаружил, что вы можете получить весь набор данных в виде XML, но он больше похож на 1 или 2 гигабайта; Мне не нужно так много.
Я хочу поэкспериментировать с реализацией алгоритма уменьшения карты.
Сказав, что, если бы я мог просто найти 100 мегабайт текстовых образцов данных из любого места, это также было бы хорошо. Например. база данных переполнения стека, если она доступна, может быть хорошего размера. Я открыт для предложений.
Редактировать: Любые, которые не являются торрентами? Я не могу получить их на работе.