Нахождение терабайт данных и использование в оракуле в учебных целях - PullRequest
2 голосов
/ 02 декабря 2009

Я учусь быть DBA, и мне не хватает только одного большого количества данных для работы с базой данных. Кто-то из irc сказал, что если вы не можете обработать несколько терабайт данных, значит, вы все еще недостаточно хороши.

У меня вопрос, есть ли способ получить терабайты данных откуда-нибудь, чтобы я мог использовать их в своих учебных целях? Я собираюсь использовать его в оракуле.

Я думал о сборе спам-писем, но было бы очень сложно получить большое количество данных за короткое время. Должен ли я пойти на это? Я был бы полезен, если кто-то может порекомендовать лучшее решение. Мне просто нужно несколько терабайт данных для игры с базой данных.

Спасибо.

Ответы [ 6 ]

2 голосов
/ 03 декабря 2009

Может быть, есть терабайтные базы данных для учебных целей. Но как вы распределяете это? По интернету? по сотням DVD?

Вы можете создавать большие таблицы, используя запросы из специальных представлений. Скалярное произведение двух или трех таблиц даст вам множество комбинаций:

INSERT INTO Target_table
SELECT 
ROWNUM                                  AS ID,
a1.objetc_name || '_' '' a2.object_name AS name
all_objects a1, 
all_objetcs a2
2 голосов
/ 02 декабря 2009

Почему бы вам не определить небольшую схему базы данных с несколькими таблицами с разными типами данных и написать несколько хранимых процедур, которые добавляют случайные данные в эти таблицы. Написание этого материала поможет вам стать лучшим дБА.

0 голосов
/ 03 декабря 2009

Кто-то из irc сказал, что если вы не можете обработать несколько терабайт данных, значит, вы все еще недостаточно хороши.

«Ручка» означает что, хотя?

Если это означает «Разработать стратегию резервного копирования и восстановления», то гораздо, гораздо важнее понять внутреннюю структуру Oracle redo, undo, RMAN и recovery. Это то место, с которого нужно начинать, и вы можете работать с очень маленькими наборами данных, чтобы убедиться, что у вас есть это понимание. Читайте документацию, читайте статьи известных людей, практикуйте, практикуйте, практикуйте.

Если это означает «Разработать стратегию индексирования», работайте над пониманием индексов и оптимизатора на основе затрат. Опять же, объем данных здесь не критичен, но глубокое понимание внутренних возможностей займет у вас очень долгий путь.

На самом деле, что бы это ни значило, как администратор базы данных, гораздо важнее понимать архитектуру Oracle и ее внутреннюю работу. Получив их, вы значительно опередите 90% других администраторов баз данных, и работа с терабайтами не будет проблемой.

0 голосов
/ 03 декабря 2009

Терабайтный уровень - это, как правило, диапазон хранилища данных (или мультимедийный материал, который довольно специализирован). Многие бизнес-приложения будут в сотнях концертов или даже меньше.

У вас будет много работы по поиску наборов данных в Интернете. Дамп данных Stackoverflow доступен, но меньше, чем концерт. OpenStreetMap имеет целый ряд свободно доступных географических данных, которые могут занимать несколько гигабайт (планета OSM составляет около 7,5 ГБ, но это сжатый XML, поэтому размер базы данных будет совсем другим).

0 голосов
/ 03 декабря 2009

Некоторые из них доступны для загрузки в Интернете. Amazon, например, имеет сервис Public Data Sets , который включает большие наборы данных, такие как данные переписи населения США (но они работают в облаке Amazon).

Google для "общедоступных наборов данных", и вы найдете много свободно доступных баз данных. Вы также можете скачать Википедию .

0 голосов
/ 03 декабря 2009

Я не знаю, находится ли он в терабайтовом диапазоне, но вот 100 миллионов рейтингов фильмов .

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...