Какова лучшая реализация Python для шаблона mapReduce? - PullRequest
3 голосов
/ 01 сентября 2011

Какова лучшая реализация Python для MapReduce, фреймворка или библиотеки, вероятно, такая же, как у Apache hadoop, но если только она на Python и лучше всего с точки зрения хорошего документирования и простого понимания, полностью реализована для MapReduce шаблон, высокая масштабируемость, высокая стабильность и легкий вес.

Я гуглил одного по имени mincemeat, не уверен насчет этого, но есть ли другие известные?

Спасибо

Ответы [ 3 ]

7 голосов
/ 01 сентября 2011

Есть некоторые части здесь и там, если вы ищете их.Например, Octopy и Disco , а также Hadoopy .

Однако я не верю, что кто-либо из них может конкурировать с Hadoop с точки зрениязрелости, стабильности, масштабируемости, производительности и т. д. Для небольших случаев их должно быть достаточно, но для чего-то более «славного» вы должны придерживаться Hadoop.

Помните, что вы все еще можете писать программы map / сокращения вHadoop с python / jython.

РЕДАКТИРОВАТЬ: я недавно сталкивался с mrjob .Это кажется великолепным, поскольку упрощает написание программ map / сокращения, а затем запускает их на Hadoop или на платформе Amazon Elastic MapReduce.Статья, которая принесла хорошие новости: здесь

3 голосов
/ 19 ноября 2012

Еще один хороший вариант: Дамбо .

Ниже приведен код для запуска карты / сокращения для подсчета слов.

def mapper(key,value):
  for word in value.split(): yield word,1
def reducer(key,values):
  yield key,sum(values)

if __name__ == "__main__":
  import dumbo
  dumbo.run(mapper,reducer)

Для запуска просто введитеВаш текстовый файл wc_input.txt для подсчета, вывод сохраняется как wc_output.

 python -m dumbo wordcount.py -hadoop /path/to/hadoop -input wc_input.txt -output wc_output
2 голосов
/ 15 ноября 2012

Вы также должны посмотреть на миссис: http://code.google.com/p/mrs-mapreduce/

Он особенно хорошо подходит для вычислительных программ с интенсивными вычислениями.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...