Question

Знаете ли вы какие-либо большие наборы данных для экспериментов с Hadoop, которые бесплатны / дешевы? Будем благодарны за любые ссылки / ссылки.

Prefernce:

По крайней мере один ГБ данных.
Данные журнала производства веб-сервера.

Мало из них, которые я нашел до сих пор:

Также можем ли мы запустить собственный сканер для сбора данных с сайтов, например Википедия? Любые указания о том, как это сделать, также приветствуются.

Binary Nerd · Answer 1 · 23 апреля 2010

Несколько вопросов о вашем вопросе о сканировании и википедии.

Вы связались с дампами данных Википедии , и вы можете использовать проект Cloud9 из UMD для работы с этими данными в Hadoop.

У них есть страница об этом: Работа с Википедией

Другой источник данных для добавления в список:

ClueWeb09 - 1 миллиард веб-страниц, собранных в период с января по февраль. Сжатые 5 ТБ.

Использование сканера для генерации данных должно быть размещено в отдельном вопросе к вопросу о Hadoop / MapReduce, я бы сказал.

APC · Answer 2 · 20 апреля 2010

Один очевидный источник: Дампы данных трилогии переполнения стека .Они свободно доступны по лицензии Creative Commons.

Peter Wippermann · Answer 3 · 23 апреля 2010

Это коллекция из 189 наборов данных для машинного обучения (которая является одним из лучших приложений для hadoop g ): http://archive.ics.uci.edu/ml/datasets.html

Olvagor · Answer 4 · 20 апреля 2010

Это не файл журнала, но, возможно, вы можете использовать файл планеты из OpenStreetMap: http://wiki.openstreetmap.org/wiki/Planet.osm

Лицензия CC, около 160 ГБ (без упаковки)

Есть также файлы меньшего размера для каждого континента: http://wiki.openstreetmap.org/wiki/World

Бесплатные большие наборы данных для экспериментов с Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Бесплатные большие наборы данных для экспериментов с Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы