Я студент, пытающийся использовать некоторые алгоритмы машинного обучения для большого набора данных. У нас около 140 миллионов записей в нашем обучающем наборе (в настоящее время в таблицах postgresql), и есть пять таблиц с примерно 6 миллионами записей, которые показываютпервичный ключ - отношения внешнего ключа.
У нас просто есть 2 машины со следующими конфигурациями 1) ОЗУ 6 ГБ с процессором i5 2-го поколения 2) ОЗУ 8 ГБ с процессором i7 2-го поколения
Мы сейчас находимсяпланируем разделить их на логические группировки перед выполнением нашего статистического анализа, так как время выполнения достаточно велико.
1) Должен ли я разделить их на отдельные таблицы в postgresql, и они используют MATLAB или R для программирования ИЛИ 2) Должен ли яиспользуйте hadoop с hbase путем переноса базы данных. 3) Должен ли я объединить и использовать их (т.е. разложить их на основе логических групп и вывести в базу данных postgresql), а также настроить hadoop + hbase для анализа и использовать его на основе необходимых алгоритмов.
Спасибо