Уменьшение размеров с помощью Map уменьшить, используя распределенные вычисления? - PullRequest
0 голосов
/ 03 марта 2011

Знаете ли вы приложение или алгоритм для уменьшения размерности больших данных, возможно, используя Map-Reduce или другие api, а также:

  • Знаете ли вы такие алгоритмы, как Singular Value decomposition чем может быть полезным для уменьшения размеров наборы данных

  • как использовать распределенные вычисления для решить это ???

Ответы [ 2 ]

2 голосов
/ 03 марта 2011

Посмотрите на Mahout , потому что там реализован SVD.

1 голос
/ 13 марта 2011

Помимо Mahout, вы должны взглянуть на SLEPc (который представляет собой набор инструментов, основанный на PETSc ) для решения задач на собственные значения для очень больших разреженных матриц. Он использует MPI, поэтому он будет работать на множестве различных параллельных и распределенных архитектур. Также есть Gensim , написанный на Python. Возможно, он не такой масштабируемый, как Mahout или SLEPc, но его гораздо проще использовать.

...