Загрузка текста из Википедии - PullRequest
21 голосов
/ 21 апреля 2010

Я ищу, чтобы загрузить полный текст Википедии для моего проекта колледжа.Нужно ли мне писать свой собственный паук, чтобы загрузить это, или есть общедоступный набор данных Википедии, доступный онлайн?

Чтобы просто дать вам краткий обзор моего проекта, я хочу узнать интересные слова из нескольких статей, которые яЯ заинтересован в этом. Но чтобы найти эти интересные слова, я планирую применить tf / idf для вычисления частоты слова для каждого слова и выбрать слова с высокой частотой.Но чтобы вычислить tf, мне нужно знать общее количество вхождений во всей Википедии.

Как это можно сделать?

Ответы [ 6 ]

22 голосов
/ 21 апреля 2010

из википедии: http://en.wikipedia.org/wiki/Wikipedia_database

Википедия предлагает бесплатные копии всего доступного контента для заинтересованных пользователей. Эти базы данных могут использоваться для зеркалирования, личного использования, неформального резервного копирования, автономного использования или запросов к базе данных (например, для Википедии: Обслуживание). Все текстовое содержимое имеет несколько лицензий в рамках лицензии Creative Commons Attribution-ShareAlike 3.0 (CC-BY-SA) и лицензии GNU Free Documentation License (GFDL). Изображения и другие файлы доступны на разных условиях, как описано на страницах их описания. Наши советы по соблюдению этих лицензий см. В Википедии: Авторские права.

Кажется, тебе тоже повезло. Из раздела дампа:

По состоянию на 12 марта 2010 г. последний полный дамп англоязычной Википедии можно найти по адресу http://download.wikimedia.org/enwiki/20100130/ Это первый полный дамп англоязычной Википедии, созданный с 2008 года. Обратите внимание, что более свежие дампы (например, дамп 20100312) являются неполными.

Таким образом, данным всего 9 дней:)

10 голосов
/ 09 июля 2012

Если вам нужна только текстовая версия, а не Mediawiki XML, вы можете скачать ее здесь: http://kopiwiki.dsd.sztaki.hu/

4 голосов
/ 22 апреля 2010

Учитывая размер дампа, вам, вероятно, будет лучше использовать частоту слова в английском языке или использовать MediaWiki API для опроса случайных страниц (или страниц с наибольшим количеством вопросов). Существуют платформы для создания ботов на основе этого API (в Ruby, C #, ...), которые могут вам помочь.

1 голос
/ 21 апреля 2010
1 голос
/ 21 апреля 2010
0 голосов
/ 22 августа 2018

Весь последний набор данных Википедии можно загрузить с: Wikimedia Просто убедитесь, что вы нажали последнюю доступную дату

...