Процесс .NET ETL - PullRequest
       21

Процесс .NET ETL

4 голосов
/ 04 октября 2011

Сначала немного фона; мы разрабатываем хранилище данных и проводим некоторые исследования по поводу того, какие инструменты использовать для нашего процесса ETL. Команда очень ориентирована на разработчиков, все знакомы с C #. До сих пор я смотрел на RhinoETL, Pentaho (Чайник), Astrix Centerprise. Служба SSIS отключена по ряду причин, которые выходят за рамки этого вопроса.

В настоящее время я склоняюсь к чему-то более ориентированному на разработчика, например, RhinoETL, потому что это похоже на путь наименьшего сопротивления для группы разработчиков. Приносят ли другие продукты, более ориентированные на визуальный дизайн, что-нибудь, чего не может RhinoETL? Есть ли какие-то конкретные вещи, на которые я должен обратить внимание при оценке этих инструментов ETL? Есть ли другие инструменты, которые мы также должны исследовать?

Ответы [ 2 ]

3 голосов
/ 26 октября 2011

Недавно мы с коллегой провели простое тестирование производительности между RhinoETL и SSIS. Кажется, что для простых потоков данных SSIS всегда превосходил RhinoETL (перемещает 2 000 000 записей примерно на 30% быстрее). Если вы используете систему контроля версий (в нашем случае TFS), вы не можете легко увидеть различия между версиями файлов dtsx (файлов SSIS), где разработка с помощью RhinoETL позволяет использовать функции TFS.

Еще одно преимущество RhinoETL можно увидеть, если вы разрабатываете пользовательский интерфейс поверх хранилища данных. Вы можете поделиться кодом между этими двумя программами.

Несмотря на то, что некоторые члены нашей команды SSIS являются выходцами из .Net, наше руководство решило продолжить разработку с SSIS (хотя они и обновились до SSIS 2008 - совсем другая тема), потому что они чувствовали, что разработчику легче учиться. SSIS чем .Net.

1 голос
/ 26 января 2019

Я знаю, что это поздний ответ, но, поскольку мне был нужен надлежащий Elt со всеми функциями SSIS, но в 100% -ной среде .net я решил разработать свою собственную.

Конечно, производительность не такая хорошая, как в SSIS.Я считаю, что если вы хотите, чтобы огромные производительности для огромных томов интегрировались и преобразовывались, вам все равно следует использовать SSIS.

Главное, что мне действительно нужно, чтобы никакой другой инструмент kinda-etl, например RhinoEtl, не предоставлял, - это правильная трассировка.система, которая позволяет иметь следы каких-либо отдельных деталей, которые легко манипулировать для записи в случае необходимости.Я сделал много готовых адаптеров для файловой системы, ftp, sftp, xml, csv, ядра entityframework и массовой загрузки.Я даже придумал визуальный инструмент для просмотра структуры процесса трансформации.

Мне потребовалось 10 месяцев, и я открыл его из открытых источников.По-прежнему не хватает документации (огромная работа для достижения).Я должен завершить его гораздо большим набором юнит-тестов (что также требует огромных усилий), чтобы достойно выпустить его в бета-версии.Даже если я все еще оставлю это в альфа-версии, это основа всех процессов ETL моей компании, и это работает как ад!

...