Что означает «массовая загрузка»? - PullRequest
15 голосов
/ 16 декабря 2010

Переходя от статьи к статье, я вижу повсюду выражение «массовая загрузка».

Что это на самом деле (технически) означает?

Что это значит?

Пояснения, основанные на сценариях использования, приветствуются.

Ответы [ 4 ]

19 голосов
/ 16 декабря 2010

Индексы обычно оптимизированы для вставки строк по одной за раз. Когда вы добавляете много данных одновременно, вставка строк по одной может быть неэффективной. Например, для B-дерева оптимальным способом вставки одного ключа является очень плохой способ добавления группы данных в пустой индекс.

Вместо этого вы придерживаетесь другой стратегии с B-Trees. Вы предварительно сортируете все данные и группируете их в блоки. Затем вы можете построить новое B-дерево, преобразовав блоки в узлы дерева. Хотя оба метода имеют одинаковую асимптотическую производительность, O (n log (n)), операция массовой загрузки имеет гораздо меньший коэффициент.

7 голосов
/ 16 декабря 2010

Массовая загрузка - это способ загрузки данных (обычно в базу данных) большими кусками.Там, где вы можете вводить заказчика или заказ на покупку или информацию об элементах в инвентаре по одной в вашу систему, массовая загрузка принимает файл такого же типа информации и загружает сотни / тысячи / миллионы записей за короткий период времени.

Если вы конвертируете из одного вида СУБД в другой, вы надеетесь не вводить всю информацию в новую БД из старой БД.Вместо этого вы должны сбросить информацию из старой БД в файл в формате, который может быть легко прочитан новой БД, а затем импортировать эти данные в новую БД.В любом случае 35K футов)

2 голосов
/ 16 декабря 2010

Массовая загрузка используется для импорта / экспорта больших объемов данных. Обычно массовые операции не регистрируются, и целостность транзакций может не работать должным образом. Часто массовые операции обходят триггеры и проверки целостности, такие как ограничения. Это значительно повышает производительность при больших объемах данных.

1 голос
/ 19 декабря 2010

Следует помнить, что массовая загрузка подразумевает, что содержимое данных от источника к цели одинаково, но это верно только в том случае, если исходная система уступает.Для любого источника данных, особенно для больших данных, исходные данные могут измениться после того, как они были прочитаны и происходит передача данных.Традиционно онлайновые системы должны либо отключаться от сети, либо приостанавливать обновления, если требуется точный момент времени, который соответствует источнику.

...