Мне нужно много обработать в таблице, содержащей более 26 миллионов строк:
- Определить правильный размер каждого столбца на основе данных указанного столбца
- Определите и удалите повторяющиеся строки.
- Создать первичный ключ (идентификатор с автоматическим увеличением)
- Создать естественный ключ (уникальное ограничение)
- Добавление и удаление столбцов
Пожалуйста, перечислите свои советы о том, как ускорить этот процесс, и порядок, в котором вы будете делать список выше.
Большое спасибо.
ОБНОВЛЕНИЕ: не нужно беспокоиться о одновременных пользователях. Также в этой таблице нет индексов. Эта таблица была загружена из исходного файла. Когда все сказано и сделано, будут индексы.
ОБНОВЛЕНИЕ: Если вы используете список, отличный от того, что я перечислил, пожалуйста, не стесняйтесь упомянуть его.
На основании комментариев и того, что я нашел, сработало:
- Создать подмножество строк из 26 миллионов строк. Я обнаружил, что 500 000 строк работают хорошо.
- Удалить столбцы, которые не будут использоваться (если есть)
- Установите соответствующие длины типов данных для всех столбцов в одном сканировании, используя max (len ())
- Создать (уникальный, если возможно) кластерный индекс для столбцов / столбцов, который в конечном итоге станет естественным ключом.
- Повторите шаги 2-4 для всех строк