Question

Я пишу ETL (на python с бэкэндом mongodb), и мне было интересно: какие стандартные функции и инструменты ETL следует называть ETL?

Этот ETL будет настолько универсальным, насколько это возможно, со сценарием и модульным подходом. В основном это будет использоваться для синхронизации разных баз данных и для импорта / экспорта наборов данных в разных форматах (xml и csv). Мне не нужны многомерные инструменты, но есть вероятность, что они понадобятся позже.

S.Lott · Answer 1 · 24 августа 2009

Давайте немного подумаем о случаях использования ETL.

Extract.
- Чтение баз данных через универсальный адаптер DB-API.
- Чтение плоских файлов через аналогичный адаптер.
- Чтение таблиц через аналогичный адаптер.
Cleanse.
- Произвольные правила
- Отфильтровать и отклонить
- Заменить
- Добавить столбцы данных
Данные профиля.
- Статистические таблицы частот.
Transform (см. Cleanse, это два варианта использования с одинаковой реализацией)
Выполните поиск соответствия размеров.
- Заменить значения или добавить значения.
Совокупный.
- В любой точке трубопровода
Load.
- Или подготовьте простой файл и запустите загрузчик продукта БД.

Кроме того, существуют некоторые дополнительные требования, которые не являются одноразовыми.

Каждая отдельная операция должна быть отдельным процессом, который может быть связан в конвейере Unix с отдельными записями, передаваемыми от процесса к процессу. При этом используются все ресурсы процессора.
Вам нужен какой-то временный планировщик для мест, где возникают проблемы с обоснованием предварительных условий ETL.
Вам необходимо расписание на основе событий для мест, в которых можно выяснить предварительные условия для этапов обработки ETL.

Примечание. Поскольку ETL привязан к вводу / выводу, несколько потоков вам мало дадут. Поскольку каждый процесс выполняется в течение длительного времени - особенно если у вас есть тысячи строк данных для обработки - накладные расходы «тяжеловесных» процессов не повреждают.

duffymo · Answer 2 · 24 августа 2009

Вот случайный список в произвольном порядке:

Подключение к широкому кругу источников, включая все основные реляционные базы данных.
Обработка нереляционных источников данных, таких как текстовые файлы, Excel, XML и т. Д.
Разрешить сопоставление нескольких источников в одной цели.
Предоставьте инструмент, помогающий сопоставить исходные и целевые поля.
Предложить основу для внедрения преобразований по желанию.
Программируемый API для написания сложных преобразований.
Оптимизировать процесс загрузки для скорости.

geejay · Answer 3 · 24 августа 2009

Автоматическое / эвристическое отображение имен столбцов. Например, простые сопоставления строк:

DB1: customerId

DB2: customer_id

Я считаю, что большая часть работы, которую я выполнял в DTS / SSIS, могла быть автоматически сгенерирована.

не обязательно "требуемая функциональность", но многие ваши пользователи будут очень довольны.

Каковы требуемые функциональные возможности структур ETL?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Каковы требуемые функциональные возможности структур ETL?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов