В чем разница между обработкой данных и ETL (извлечение, преобразование и загрузка)? - PullRequest
0 голосов
/ 08 ноября 2019

Мое базовое понимание ETL заключается в том, что кто-то вроде аналитика данных будет использовать его. ETL будет использоваться для извлечения данных из базы данных (MySQL), преобразованной во что-то вроде Excel, где применяются бизнес-правила (функции Excel), а затем загружается в новую базу данных для другого приложения. Я невероятно смущен, когда дело доходит до того, как это отличается от обработки данных. Из того, что я собрал, есть только несколько отличий. 1, люди, использующие технологии разные. Обработка данных может быть работой инженера данных против ETL и аналитиков данных. 2, используемые технологии разные. В Data Wrangling использовалось бы что-то вроде Apache Spark или Hadoop Ecosystem. ETL будет использовать такие инструменты, как Excel, Access или облачная база данных для извлечения данных. По сути, я понимаю, что обработка данных - это «ETL-инжиниринг» с необработанными данными, то есть данные не были смоделированы - (их нет в схеме). (Может быть, вам придется анализировать данные, такие как ретвиты, лайки и избранное или что-то в этом случае)? Просто любопытно, нахожусь ли я на трассе или нет. Я пытался прочитать некоторые статьи, но это все еще не имеет смысла для меня. Кто-нибудь может дать простое объяснение, чтобы я мог обернуть голову вокруг концепции? Благодарю.

1 Ответ

0 голосов
/ 08 ноября 2019

Обработка данных - это процесс преобразования / очистки данных, которые передаются из источника в цель. Есть несколько способов сделать это преобразование или очистку: -

«Маленькие» наборы данных

Для небольших наборов данных, которые можно открыть в Excel, преобразования правил очистки могут быть определены в Excel черезс помощью макросов и т. д. Если вы хотите продолжать делать это многократно, вы можете создавать сценарии bat (windows) или shell (linux) и планировать их с помощью планировщика cron или windows.

Тривиальным примером будет заменаNULL с некоторым значением в файле размером 10 МБ

"Средние" наборы данных

Если размер набора данных таков, что его нельзя открыть в Excel, вы можете использовать языки сценариев или программированиясделать ту же операцию и запланировать их, используя упомянутый пример планировщиков. Такие языки сценариев обычно работают на одной машине, а производительность прямо пропорциональна конфигурации машины

. Тривиальным примером будет замена значения NULL на некоторое значение в файле размером 10 ГБ

"Большие" наборы данных

Когда набор данных большой, открытие в Excel невозможно, а выполнение правила очистки на одном компьютере может быть медленным. Вот где Big Data технологии, такие как «Уменьшить карту», ​​«Искра» и т. Д., Сияют, когда подмножество данных отправляется на несколько машин, и правило очистки применяется к каждому компьютеру на подмножестве данных, тем самым увеличивая пропускную способность всей обработки.

Тривиальным примером будет замена значения NULL на значение в файле размером 500 ГБ

...