Проблема интеграции различных источников данных - PullRequest
0 голосов
/ 31 августа 2009

У нас есть 4 источника данных. 2 источника данных являются внутренними, и мы можем напрямую подключиться к базе данных. Для 3-го источника данных мы получаем плоский файл (.csv) и должны извлечь данные. 4-й источник данных является внешним, и мы не можем получить к нему доступ это напрямую.

Нам нужно извлечь данные из всех 4 источников данных, запустить на них бизнес-правила и сохранить их в нашей базе данных. У нас есть веб-приложение, которое запускается поверх этой базы данных. Также каждый месяц мы должны извлекать данные и делать какие-либо обновления / удаления / добавления и т. Д. К существующим данным.

Я почти ничего не знаю об этом процессе. Также можете ли вы указать несколько хороших книг для изучения этой темы.

Это текущие подходы, о которых я думал.

  • Написать внутренний веб-сервис, который будет взаимодействовать с внутренними источниками данных и извлекать данные. Создайте обработчик для внешнего источника данных с помощью промежуточного программного обеспечения (mqseries уже настроен для этого в каком-то другом существующем проекте, планируя использовать его повторно). Все данные из csv файл снова с помощью Java. На этих данных запустите некоторые бизнес-правила из Java. Используйте эти данные. Этот подход может работать в моей коробке разработчика, но не уверен, что все проблемы могут возникнуть в Prod (особенно из-за синхронизации)
  • Извлечение данных из внутренней среды с использованием простого java-соединения jdbc. Для оставшихся 2-х простых файлов создайте дамп данных с помощью sql loader. Все данные сначала отправляются во временные таблицы. Запускайте бизнес-правила через pl / sql и используйте.
  • Используйте какой-нибудь инструмент ELT, например informatica, для извлечения data.write бизнес-правил на perl (вызывается informatica)

Спасибо.

1 Ответ

2 голосов
/ 05 ноября 2009

Книга, подобная " The Data Warehouse ETL Toolkit " Ральфа Кимбалла, является хорошим ресурсом для изучения методов / архитектур, позволяющих собирать данные из разных источников в одном месте.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...