Как бы я получить подмножество страниц Википедии? - PullRequest
4 голосов
/ 24 августа 2009

Как бы получить подмножество (скажем, 100 МБ) страниц Википедии? Я обнаружил, что вы можете получить весь набор данных в виде XML, но он больше похож на 1 или 2 гигабайта; Мне не нужно так много.

Я хочу поэкспериментировать с реализацией алгоритма уменьшения карты.

Сказав, что, если бы я мог просто найти 100 мегабайт текстовых образцов данных из любого места, это также было бы хорошо. Например. база данных переполнения стека, если она доступна, может быть хорошего размера. Я открыт для предложений.

Редактировать: Любые, которые не являются торрентами? Я не могу получить их на работе.

Ответы [ 7 ]

4 голосов
/ 24 августа 2009

База данных stackoverflow доступна для загрузки .

3 голосов
/ 24 августа 2009

Крис, вы могли бы просто написать небольшую программу для перехода по ссылке "Случайная страница" в Википедии, пока не получите 100 МБ веб-страниц: http://en.wikipedia.org/wiki/Special:Random. Вы захотите отбросить любые дубликаты, которые вы можете получить, и вы также хотите ограничить количество запросов в минуту (хотя некоторая часть статей будет обрабатываться промежуточными веб-кешами, а не серверами Википедии). Но это должно быть довольно легко.

1 голос
/ 24 августа 2009

Один из вариантов - загрузить весь дамп Википедии, а затем использовать только его часть. Вы можете либо распаковать всю вещь, а затем использовать простой скрипт, чтобы разделить файл на более мелкие файлы (например, здесь ), или, если вы беспокоитесь о дисковом пространстве, вы можете написать что-то, что скрипт распаковывает и распадается на лету, и тогда вы можете остановить процесс распаковки на любой стадии, которую захотите. Википедия Dump Reader может вдохновить вас на распаковку и обработку на лету, если вы знакомы с python (посмотрите mparser.py).

Если вы не хотите загружать все это, у вас есть возможность вырезать. Функция экспорта может быть полезна для этого, и wikipediabot также был предложен в этом контексте.

1 голос
/ 24 августа 2009

Если вы хотите получить копию базы данных stackoverflow, вы можете сделать это из дампа данных Creative Commons .

Из любопытства, для чего вы используете все эти данные?

0 голосов
/ 12 марта 2019

Одно меньшее подмножество статей Википедии включает в себя «мета» статьи вики. Он находится в том же формате XML, что и весь набор данных статьи, но меньше (около 400 МБ на март 2019 года), поэтому его можно использовать для проверки программного обеспечения (например, для тестирования сценариев GenSim).

https://dumps.wikimedia.org/metawiki/latest/

Вы хотите искать любые файлы с суффиксом -articles.xml.bz2.

0 голосов
/ 24 февраля 2011

Доступно много дампов из Википедии. Почему вы хотите выбрать самый большой (английский вики)? Архивы Викиновостей намного меньше.

0 голосов
/ 24 августа 2009

Вы можете использовать веб-сканер и очистить 100 МБ данных?

...