Обработка данных - это процесс преобразования / очистки данных, которые передаются из источника в цель. Есть несколько способов сделать это преобразование или очистку: -
«Маленькие» наборы данных
Для небольших наборов данных, которые можно открыть в Excel, преобразования правил очистки могут быть определены в Excel черезс помощью макросов и т. д. Если вы хотите продолжать делать это многократно, вы можете создавать сценарии bat (windows) или shell (linux) и планировать их с помощью планировщика cron или windows.
Тривиальным примером будет заменаNULL с некоторым значением в файле размером 10 МБ
"Средние" наборы данных
Если размер набора данных таков, что его нельзя открыть в Excel, вы можете использовать языки сценариев или программированиясделать ту же операцию и запланировать их, используя упомянутый пример планировщиков. Такие языки сценариев обычно работают на одной машине, а производительность прямо пропорциональна конфигурации машины
. Тривиальным примером будет замена значения NULL на некоторое значение в файле размером 10 ГБ
"Большие" наборы данных
Когда набор данных большой, открытие в Excel невозможно, а выполнение правила очистки на одном компьютере может быть медленным. Вот где Big Data
технологии, такие как «Уменьшить карту», «Искра» и т. Д., Сияют, когда подмножество данных отправляется на несколько машин, и правило очистки применяется к каждому компьютеру на подмножестве данных, тем самым увеличивая пропускную способность всей обработки.
Тривиальным примером будет замена значения NULL на значение в файле размером 500 ГБ