Вся деятельность ETL основана на предпосылке, что источник данных несовместим с источником данных назначения. И много раз, люди, которые сбрасывают исходные данные, могут не думать, что эти данные должны быть собраны и объединены. Вот почему весь бизнес ETL существует.
Коммерческий инструмент ETL не будет магически считывать исходные данные и преобразовывать данные в соответствии с правилами целевой базы данных. Правила должны быть определены и введены в инструмент ETL. Интересно, что многие компании предлагают обучение !!! о том, как использовать их собственный язык сценариев. Так что это не всегда так просто. Но для непрограммистов, возможно, это предпочтительный маршрут.
Лично я думаю, что всегда проще написать собственный инструмент ETL на таком языке, как Perl. Просто напишите алгоритм конечного автомата, чтобы копировать исходные данные и преобразовывать их в нужный формат. Я использую Perl для FTP на машинах, читаю файлы, преобразую данные и затем загружаю их в базу данных. Это всегда превосходное решение и намного быстрее, если вы опытный в Perl или аналогичном, или можете нанять кого-то, кто знает Perl.
И последний момент, начните с конца. Создайте исходные данные в структурированном формате, чтобы помочь группе анализа в вашей компании, которая хочет объединить и изучить данные. Это облегчит и ускорит разработку программы ETL.