Бесплатные большие наборы данных для экспериментов с Hadoop - PullRequest
38 голосов
/ 20 апреля 2010

Знаете ли вы какие-либо большие наборы данных для экспериментов с Hadoop, которые бесплатны / дешевы? Будем благодарны за любые ссылки / ссылки.

Prefernce:

  • По крайней мере один ГБ данных.

  • Данные журнала производства веб-сервера.

Мало из них, которые я нашел до сих пор:

  1. свалка из Википедии

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

Также можем ли мы запустить собственный сканер для сбора данных с сайтов, например Википедия? Любые указания о том, как это сделать, также приветствуются.

Ответы [ 4 ]

10 голосов
/ 23 апреля 2010

Несколько вопросов о вашем вопросе о сканировании и википедии.

Вы связались с дампами данных Википедии , и вы можете использовать проект Cloud9 из UMD для работы с этими данными в Hadoop.

У них есть страница об этом: Работа с Википедией

Другой источник данных для добавления в список:

  • ClueWeb09 - 1 миллиард веб-страниц, собранных в период с января по февраль. Сжатые 5 ТБ.

Использование сканера для генерации данных должно быть размещено в отдельном вопросе к вопросу о Hadoop / MapReduce, я бы сказал.

10 голосов
/ 20 апреля 2010

Один очевидный источник: Дампы данных трилогии переполнения стека .Они свободно доступны по лицензии Creative Commons.

7 голосов
/ 23 апреля 2010

Это коллекция из 189 наборов данных для машинного обучения (которая является одним из лучших приложений для hadoop g ): http://archive.ics.uci.edu/ml/datasets.html

6 голосов
/ 20 апреля 2010

Это не файл журнала, но, возможно, вы можете использовать файл планеты из OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

Лицензия CC, около 160 ГБ (без упаковки)

Есть также файлы меньшего размера для каждого континента: http://wiki.openstreetmap.org/wiki/World

...