Распределенный вопрос ETL - PullRequest
0 голосов
/ 18 марта 2010

Поиск любых рекомендаций для системы ETL для 200+ распределенных систем (Windows, AS400, Linux и т. Д.).

Мы собираем данные каждый месяц от всех наших клиентов (независимо от типа системы), возвращаем их, обрабатываем все вместе и отправляем им сводные решения. Мне поручено автоматизировать эту систему - любые предложения о том, как сделать это надежно, я действительно не хочу заново изобретать колесо. У меня нет ни одной системы, из которой я получаю данные, что усложнило эту задачу, но я могу установить клиент.

Я создал прототип клиент-серверной архитектуры на Java с FTP для транспорта, но мне он кажется хрупким. Я должен отметить, что весь код извлечения / преобразования для различных систем уже существует в Java (хотя и устаревший).

Я должен упомянуть, что мы собираем данные один раз в месяц в настоящее время, но работаем в направлении еженедельно.

Любое понимание приветствуется.

1 Ответ

0 голосов
/ 18 марта 2010

Я думаю, это будет зависеть от того, каким будет проект. Если к этому фрагменту будет добавлено больше требований, и при этом потребуются определенные средства, инструмент ETL может быть хорошей идеей.

Однако, если вы уже зафиксировали вывод (отчет) и не собираетесь никуда идти, пользовательский ETL может стоить того. Причина в том, что большинство инструментов ETL имеют различный формат вывода (Диаграмма, текстовый файл и т. Д.) И удобство использования инструмента, но суть в том, что часть перемещения данных практически универсальна для всех инструментов. Даже с любым другим инструментом ETL вам нужно реализовать тот же запрос, который вы делаете сейчас, плюс вам нужно изучить инструмент. Кто знает? Какой-то инструмент может быть задействован в установке более 200 сайтов.

Недавно наша компания потратила много денег на покупку инструментов, серверов и персонала для создания хороших ETL, поскольку наш собственный ETL критиковался за медлительность и непрофессионализм (вы знаете, что он не использует популярные ETL инструменты. Это куча скриптовых команд). Несмотря на все потраченные деньги, проект оказался почти в тупике.

Еще одна вещь. Я не понимаю, как Java & FTP участвует в этом процессе. Можете ли вы напрямую подключить БД в вашей системе клиента с помощью SQL? Если вы могли бы, SQL и хранимые процедуры всегда лучше, чем JAVA и FTP.

Надеюсь, это поможет.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...