Question

Как бы получить подмножество (скажем, 100 МБ) страниц Википедии? Я обнаружил, что вы можете получить весь набор данных в виде XML, но он больше похож на 1 или 2 гигабайта; Мне не нужно так много.

Я хочу поэкспериментировать с реализацией алгоритма уменьшения карты.

Сказав, что, если бы я мог просто найти 100 мегабайт текстовых образцов данных из любого места, это также было бы хорошо. Например. база данных переполнения стека, если она доступна, может быть хорошего размера. Я открыт для предложений.

Редактировать: Любые, которые не являются торрентами? Я не могу получить их на работе.

Jim Ferrans · Answer 1 · 24 августа 2009

Крис, вы могли бы просто написать небольшую программу для перехода по ссылке "Случайная страница" в Википедии, пока не получите 100 МБ веб-страниц: http://en.wikipedia.org/wiki/Special:Random. Вы захотите отбросить любые дубликаты, которые вы можете получить, и вы также хотите ограничить количество запросов в минуту (хотя некоторая часть статей будет обрабатываться промежуточными веб-кешами, а не серверами Википедии). Но это должно быть довольно легко.

daphshez · Answer 2 · 24 августа 2009

Один из вариантов - загрузить весь дамп Википедии, а затем использовать только его часть. Вы можете либо распаковать всю вещь, а затем использовать простой скрипт, чтобы разделить файл на более мелкие файлы (например, здесь ), или, если вы беспокоитесь о дисковом пространстве, вы можете написать что-то, что скрипт распаковывает и распадается на лету, и тогда вы можете остановить процесс распаковки на любой стадии, которую захотите. Википедия Dump Reader может вдохновить вас на распаковку и обработку на лету, если вы знакомы с python (посмотрите mparser.py).

Если вы не хотите загружать все это, у вас есть возможность вырезать. Функция экспорта может быть полезна для этого, и wikipediabot также был предложен в этом контексте.

Mike Cooper · Answer 3 · 24 августа 2009

Если вы хотите получить копию базы данных stackoverflow, вы можете сделать это из дампа данных Creative Commons .

Из любопытства, для чего вы используете все эти данные?

Vineet Bansal · Answer 4 · 12 марта 2019

Одно меньшее подмножество статей Википедии включает в себя «мета» статьи вики. Он находится в том же формате XML, что и весь набор данных статьи, но меньше (около 400 МБ на март 2019 года), поэтому его можно использовать для проверки программного обеспечения (например, для тестирования сценариев GenSim).

https://dumps.wikimedia.org/metawiki/latest/

Вы хотите искать любые файлы с суффиксом -articles.xml.bz2.

Danubian Sailor · Answer 5 · 24 февраля 2011

Доступно много дампов из Википедии. Почему вы хотите выбрать самый большой (английский вики)? Архивы Викиновостей намного меньше.

Miguel A. Friginal · Answer 6 · 24 августа 2009

Вы можете использовать веб-сканер и очистить 100 МБ данных?

Как бы я получить подмножество страниц Википедии?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как бы я получить подмножество страниц Википедии?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 7 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы