Большие наборы данных - PullRequest
       25

Большие наборы данных

12 голосов
/ 16 августа 2008

Я всегда ищу большие наборы данных для тестирования различных типов программ. У кого-нибудь есть предложения?

Ответы [ 8 ]

10 голосов
/ 16 августа 2008

Проверьте конкурс netflix . Я полагаю, что они представили свою базу данных или большое подмножество, чтобы облегчить соревнование.

ОБНОВЛЕНИЕ: Их FAQ говорит, что у них есть 100 миллионов записей в подмножестве, которое вы можете загрузить.

5 голосов
/ 20 сентября 2008

Возможно, вы захотите взглянуть на данные для Американской статистической ассоциации data expo - это информация о рейсах для всех коммерческих рейсов в США за последние 20 лет - 120 миллионов записей, 11 концертов данные.

2 голосов
/ 19 ноября 2008

Количество del.icio.us пользователей (включая меня) теговых страниц, которые содержат публичные данные с использованием тега "publicdata" Вы можете найти этот архив здесь и подписаться на RSS-канал для этого тега здесь . Подпишитесь на ленту новостей, и вы увидите постоянный поток интересных наборов данных, которые появляются в сети.

Не все эти наборы данных большие, но они часто интересны.

2 голосов
/ 16 августа 2008

Я немного поработал с наборами Wikimedia , которые представляют собой огромные файлы XML. К сожалению, их сервер загрузки в настоящее время испытывает проблемы с дисковым пространством, поэтому многие наборы данных недоступны. Но когда он доступен, весь набор данных английской Википедии с полной историей составляет 2,8 ТБ (сжатых 18 ГБ).

1 голос
/ 16 августа 2008

Вы также можете проверить theinfo от Аарона Шварца.

С сайта

Это сайт для больших наборов данных и люди, которые их любят: скребки и сканеры, которые их собирают, ученые и гики, которые их обрабатывают, дизайнеры и художники, которые визуализировать их. Это место, где они могут обмениваться советами и хитростями, разрабатывать и обмениваться инструментами вместе, и начать интегрировать их особенности проекты.

1 голос
/ 16 августа 2008

Я не знаю, какая у вас целевая платформа, но если вы разрабатываете для базы данных MSSQL, посмотрите Visual Studio для специалистов по базам данных . У него есть очень полезная функция, позволяющая генерировать данные для вашей схемы, используя план данных, который вы можете определить.

Redgate также имеет инструмент для сбора данных, но я им не пользовался.

Преимущество заключается в том, что вы можете создать план генерации данных и использовать его для наполнения вашей базы данных согласованными большими объемами данных, которые можно настроить для тестирования определенных областей вашей схемы.

1 голос
/ 16 августа 2008

Возможно, вы захотите взглянуть на генерацию случайных данных для Fuzz Testing . Это даст вам неограниченное количество тестовых данных, и вы с большей вероятностью попадете в крайние случаи.

Может быть, еще немного информации о том, какой тип тестовых данных вы хотите, в каком формате и для каких типов приложений?

0 голосов
/ 15 апреля 2015

Если вы заинтересованы в персонализации типа данных, которые вы получаете, проверьте Kimono Labs . Это программное обеспечение для очистки веб-страниц, которое можно использовать для бесплатной очистки практически любого сайта без ограничения числа возвращаемых строк. Просто настройте на нем API (вы можете использовать их генератор URL-адресов для одновременной обработки нескольких URL-адресов), а затем использовать свой личный набор данных в виде JSON, CSV или RSS.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...