Question

Я студент, пытающийся использовать некоторые алгоритмы машинного обучения для большого набора данных. У нас около 140 миллионов записей в нашем обучающем наборе (в настоящее время в таблицах postgresql), и есть пять таблиц с примерно 6 миллионами записей, которые показываютпервичный ключ - отношения внешнего ключа.

У нас просто есть 2 машины со следующими конфигурациями 1) ОЗУ 6 ГБ с процессором i5 2-го поколения 2) ОЗУ 8 ГБ с процессором i7 2-го поколения

Мы сейчас находимсяпланируем разделить их на логические группировки перед выполнением нашего статистического анализа, так как время выполнения достаточно велико.

1) Должен ли я разделить их на отдельные таблицы в postgresql, и они используют MATLAB или R для программирования ИЛИ 2) Должен ли яиспользуйте hadoop с hbase путем переноса базы данных. 3) Должен ли я объединить и использовать их (т.е. разложить их на основе логических групп и вывести в базу данных postgresql), а также настроить hadoop + hbase для анализа и использовать его на основе необходимых алгоритмов.

Спасибо

David Gruzman · Answer 1 · 07 марта 2012

Трудно поверить, что в таком маленьком кластере Hadoop будет эффективен. Если вы сможете эффективно упорядочить задачу без нее - она будет почти наверняка более эффективной
Еще одно соображение, которое я бы принял во внимание - каково время итерации в вашем учебном процессе. Если итерация занимает десятки секунд - тогда затраты на работу Hadoop (которые составляют около 30 секунд) будут слишком большими.
То, что вы делаете, может получить от Hadoop - это эффективный внешний вид parralel - это и есть стадия случайного воспроизведения. Если вам это нужно - рассмотрите возможность использования hadoop.
Также обратите внимание, что в общем случае портировать реляционную схему на HBase нелегко - поскольку объединения не поддерживаются.

Hadoop или Postgresql для эффективной обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Hadoop или Postgresql для эффективной обработки

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов