Распределенный, обработка ошибок, копирование ТБ данных - PullRequest
1 голос
/ 06 октября 2010

У нас есть ящик, в котором каждый день хранятся терабайты данных (10-20 ТБ), где каждый файл на диске может быть от мегабайт до гигабайт.

Мы хотим отправить все эти файлы в набор «коробок для пиццы», где они будут использовать и обрабатывать файлы.

Кажется, я не могу найти ничего, что было бы создано для обработки такого количества данных, кроме distcp (hadoop). Robocopy / etc не подойдет.

Кто-нибудь знает решение, которое может справиться с этим типом делегирования (распределить работу между коробками для пиццы) и имеет надежную передачу файлов?

Ответы [ 2 ]

2 голосов
/ 07 октября 2010

Взгляните на Flume http://archive.cloudera.com/cdh/3/flume/UserGuide.html

Flume - это распределенный, надежный и доступный сервис для эффективного сбора, агрегирования и перемещения больших объемов данных журнала. Он имеет простую и гибкую архитектуру, основанную на потоковых данных. Он надежный и отказоустойчивый с настраиваемыми механизмами надежности и многими механизмами восстановления после сбоя и восстановления. Система управляется централизованно и обеспечивает интеллектуальное динамическое управление. Он использует простую расширяемую модель данных, которая допускает интерактивные аналитические приложения.

Для его установки https://wiki.cloudera.com/display/DOC/Flume+Installation

0 голосов
/ 13 октября 2010

Как уже упоминалось, Hadoop является ответом, потому что он предназначен именно для такого рода больших данных.Вы можете создать кластер Hadoop и хранить там информацию, а также использовать ядра блоков для анализа информации с помощью map / проводить.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...