Alrite .. итак ... вот ситуация: я отвечаю за разработку миграции программного обеспечения ETL (скорее EAI), основанного на java.Мне придется перенести это на Hadoop (версия apache).Технически, это скорее перезагрузка, а не миграция, потому что у меня нет базы данных для миграции.Речь идет об использовании Hadoop, так что фаза трансформации («ETL») идет параллельно.Это сделало бы мое программное обеспечение ETL,
- Быстрее - с преобразованием parallel-iz-ed.
- Масштабируемый - Обработка большего количества данных / больших данных - это добавление большего количества узлов.
- Надежность - избыточность и надежность Hadoop добавят к функциям моего продукта.
Я протестировал эту конфигурацию - изменил мои алгоритмы преобразования в модель mapreduce, протестировал ее на высокопроизводительном кластере Hadoopи отметили производительность.Теперь я пытаюсь понять и документировать все те вещи, которые могут помешать редизайну / переархивированию / миграции приложения.Вот некоторые из них, о которых я мог подумать:
- Два других этапа: извлечение и загрузка - мой инструмент ETL может работать с различными источниками данных. Итак, я должен перепроектировать свои адаптеры данных для чтения данных из этих данныхисточники, загрузить его в HDFS, а затем преобразовать его и загрузить в целевой источник данных?Может ли этот шаг стать огромным узким местом для всей архитектуры?
- Обратная связь: Таким образом, мое преобразование завершается неудачно для записи - как я могу сообщить конечному пользователю, что ETL обнаружил ошибку в определенной записи?Короче говоря, как мне отслеживать, что на самом деле происходит на уровне приложения со всеми происходящими картами / сокращениями / слияниями и сортировками - веб-интерфейс Hadoop по умолчанию не для конечного пользователя, а для администраторов.Так стоит ли мне создавать новое веб-приложение, которое не использует веб-интерфейс Hadoop?(Я знаю, что это не рекомендуется)
- Безопасность: Как мне обрабатывать авторизацию на уровне Hadoop?Кто может выполнять задания, кому не разрешено их запускать - как поддерживать ACL?
Я с нетерпением жду ваших ответов с возможными ответами на поставленные выше вопросы и дополнительными вопросами / фактами, которые мне нужно рассмотреть, исходя из вашего опыта работы с Hadoop / анализом проблем.Как всегда, я ценю вашу помощь и благодарю вас всех заранее.