Распределенная файловая система Hadoop поддерживает высокопараллельную пакетную обработку данных с использованием MapReduce.
Итак, ваш текущий процесс занимает 5 часов для обобщения данных. Общие задачи суммирования являются одним из «типов» заданий, в которых MapReduce превосходит другие. Однако вам необходимо понимать, будут ли ваши требования к обработке преобразовываться в задание MapReduce. Под этим я подразумеваю, можете ли вы получить необходимые сводки, используя пары ключ / значение, которые MapReduce ограничивает в использовании?
Для работы Hadoop требуется кластер машин. У вас есть оборудование для поддержки кластера? Обычно это зависит от того, сколько данных вы храните в HDFS, а также от скорости обработки данных. Обычно при запуске MapReduce на Hadoop, чем больше у вас компьютеров, тем больше данных вы можете сохранить или тем быстрее вы выполняете задание. Представление о количестве данных, которые вы обрабатываете каждую ночь, очень помогло бы здесь?
Вы все еще можете использовать Oracle. Вы можете использовать Hadoop / MapReduce для обработки данных, а затем использовать собственный код для вставки сводных данных в базу данных оракула.