Question

Я новичок в этом, и мое требование заключается в следующем:
Я хочу обработать огромный набор данных текста с рейтингами фильмов (в текстовом формате) и сохранить их в некоторой базе данных NoSQL, затем выполнить некоторую обработку и рекомендовать фильмы по одному конкретному фильму.

Так что мне нужна скорость - я думаю, что Hadoop поможет мне в этом, а хранение данных в базе данных NoSQL будет способствовать скорости. Я хотел бы знать, хорошо ли известен какой-то другой подход и какие комбинации используются с Java

Спасибо

Vasil · Answer 1 · 04 января 2011

Насколько огромен огромен? Возможно, вы захотите проверить Apache Mahout . Именно для этого он имеет очень эффективные структуры данных - хранение и обработку разреженных данных для алгоритмов совместной фильтрации. Он будет обрабатывать набор данных, скажем, 10 миллионов оценок на машине среднего размера +, если ваш набор данных начинает расти из одной машины, он поддерживает обработку разбиения с помощью hadoop.

rubayeet · Answer 2 · 31 декабря 2010

Если вам интересно, какое хранилище данных NoSQL использовать, этот пост может помочь.

Java + Hadoop + NoSql (какие комбинации использовать)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Java + Hadoop + NoSql (какие комбинации использовать)

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы