Хорошие требования к БД - PullRequest
1 голос
/ 17 июля 2009

Я сейчас занимаюсь исследовательским проектом, и мне дали около 400G данных. Они все пары, и в настоящее время я использую данные загрузки MySQL в моей БД. Я рассмотрел довольно много вариантов оптимизации MySQL для вставки, но это занимает слишком много времени для завершения (оценка составляет 118 дней).

А потом я заглянул в лучший магазин ценностей вокруг: Токийский кабинет. Я очень люблю это, это быстро, это легко, и это просто. Однако, это не позволяет идентичным ключам встречаться более одного раза. Это НЕ соответствует моему требованию.

(Мои данные что-то вроде <1, 2> <1, 3> <1, 4> <2, 9> ... и т. Д.)

Кому-нибудь здесь есть что порекомендовать? Предпочтительно я хочу что-то, что имеет API для PHP (потому что я буду использовать веб-разработчика для моего внутреннего интерфейса)

Желательно что-то быстрее, чем mysql (Единственные запросы, которые я буду выполнять, это «SELECT c1 из таблицы WHERE c2 = X» или «SELECT c2 из таблицы WHERE c1 = X»)

Я должен вставить все данные один раз, чтобы позволить выборам работать. Таким образом, вставка не может занять больше недели для моего размера данных.

(Распределен в порядке, у меня есть кластер).

Ответы [ 2 ]

1 голос
/ 17 июля 2009

Вы раньше использовали LOAD DATA INFILE? Это самый быстрый способ загрузки данных в MySQL. 118 дней для 400 ГБ звучит так, будто вы выполняете кучу операторов INSERT для каждой строки ...

0 голосов
/ 17 июля 2009

Да, 400 гигабайт данных заставят MySQL просить пощады. Вы должны использовать Oracle или Microsoft SQL.

Даже тогда, когда вы получите эти данные в БД, что вы планируете делать с ними? Каждый запрос займет несколько минут.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...