Hadoop или Postgresql для эффективной обработки - PullRequest
1 голос
/ 07 марта 2012

Я студент, пытающийся использовать некоторые алгоритмы машинного обучения для большого набора данных. У нас около 140 миллионов записей в нашем обучающем наборе (в настоящее время в таблицах postgresql), и есть пять таблиц с примерно 6 миллионами записей, которые показываютпервичный ключ - отношения внешнего ключа.

У нас просто есть 2 машины со следующими конфигурациями 1) ОЗУ 6 ГБ с процессором i5 2-го поколения 2) ОЗУ 8 ГБ с процессором i7 2-го поколения

Мы сейчас находимсяпланируем разделить их на логические группировки перед выполнением нашего статистического анализа, так как время выполнения достаточно велико.

1) Должен ли я разделить их на отдельные таблицы в postgresql, и они используют MATLAB или R для программирования ИЛИ 2) Должен ли яиспользуйте hadoop с hbase путем переноса базы данных. 3) Должен ли я объединить и использовать их (т.е. разложить их на основе логических групп и вывести в базу данных postgresql), а также настроить hadoop + hbase для анализа и использовать его на основе необходимых алгоритмов.

Спасибо

1 Ответ

2 голосов
/ 07 марта 2012

Трудно поверить, что в таком маленьком кластере Hadoop будет эффективен. Если вы сможете эффективно упорядочить задачу без нее - она ​​будет почти наверняка более эффективной
Еще одно соображение, которое я бы принял во внимание - каково время итерации в вашем учебном процессе. Если итерация занимает десятки секунд - тогда затраты на работу Hadoop (которые составляют около 30 секунд) будут слишком большими.
То, что вы делаете, может получить от Hadoop - это эффективный внешний вид parralel - это и есть стадия случайного воспроизведения. Если вам это нужно - рассмотрите возможность использования hadoop.
Также обратите внимание, что в общем случае портировать реляционную схему на HBase нелегко - поскольку объединения не поддерживаются.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...