Java + Hadoop + NoSql (какие комбинации использовать) - PullRequest
1 голос
/ 31 декабря 2010

Я новичок в этом, и мое требование заключается в следующем:
Я хочу обработать огромный набор данных текста с рейтингами фильмов (в текстовом формате) и сохранить их в некоторой базе данных NoSQL, затем выполнить некоторую обработку и рекомендовать фильмы по одному конкретному фильму.

Так что мне нужна скорость - я думаю, что Hadoop поможет мне в этом, а хранение данных в базе данных NoSQL будет способствовать скорости. Я хотел бы знать, хорошо ли известен какой-то другой подход и какие комбинации используются с Java

Спасибо

Ответы [ 2 ]

0 голосов
/ 04 января 2011

Насколько огромен огромен? Возможно, вы захотите проверить Apache Mahout . Именно для этого он имеет очень эффективные структуры данных - хранение и обработку разреженных данных для алгоритмов совместной фильтрации. Он будет обрабатывать набор данных, скажем, 10 миллионов оценок на машине среднего размера +, если ваш набор данных начинает расти из одной машины, он поддерживает обработку разбиения с помощью hadoop.

0 голосов
/ 31 декабря 2010

Если вам интересно, какое хранилище данных NoSQL использовать, этот пост может помочь.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...