Как проанализировать базу данных статьи из Википедии с помощью R? - PullRequest
3 голосов
/ 11 апреля 2010

Это «большой» вопрос, я не знаю, с чего начать, поэтому я надеюсь, что некоторые из вас могут дать мне направление. И если это не «хороший» вопрос, я закрою ветку с извинениями.

Я хочу просмотреть базу данных Википедии (скажем, английскую) и заняться статистикой. Например, меня интересует, сколько активных редакторов (которые должны быть определены) имели Википедию в каждый момент времени (скажем, в последние 2 года).

Я не знаю, как создать такую ​​базу данных, как получить к ней доступ, как узнать, какие типы данных она имеет, и так далее. Итак, мои вопросы:

  1. Какие инструменты мне нужны для этого (кроме базового R)? MySQL на моем компьютере? Подключение к базе данных RODBC?
  2. Как начать планирование такого проекта?

Ответы [ 3 ]

8 голосов
/ 11 апреля 2010

Вы хотите начать здесь: http://en.wikipedia.org/wiki/Wikipedia:Database_download

Что приведет вас сюда: http://download.wikimedia.org/enwiki/20100312/

И файл, который вам, вероятно, нужен:

# 2010-03-17 04:33:50 done Log events to all pages.
    * This contains the log of actions performed on pages.
    * pages-logging.xml.gz 1.0 GB

http://download.wikimedia.org/enwiki/20100312/enwiki-20100312-pages-logging.xml.gz

Затем вы импортируете xml в MySQL. Генерация гистограммы пользователей за день, неделю, год и т. Д. Не потребует R. Вы сможете сделать это с помощью одного запроса MySQL. Что-то вроде:

select DAYOFYEAR(wiki_edit_timestamp), count(*)
from page_logs
group by DAYOFYEAR(wiki_edit_timestamp)
order by DAYOFYEAR(wiki_edit_timestamp);

и т.д.

(Я не уверен, какова их настоящая схема, но это будет что-то вроде этого.)

Вы столкнетесь с проблемами, без сомнения, но вы тоже многому научитесь. Удачи!

5 голосов
/ 11 апреля 2010

Вы можете

2 голосов
/ 17 мая 2010

Попробуйте WikiXRay (Python / R) и zotero .

...