Я выполняю потоковое задание в Hadoop (на Amazon EMR) с картографом и редуктором, написанным на Python.Я хочу знать о приросте скорости, который я получил бы, если бы я внедрил тот же самый маппер и редуктор в Java (или использовал Pig).
В частности, я ищу опыт людей по переходу с потоковой передачи на пользовательский jarразвертывания и / или Свинья, а также документы, содержащие сравнительные сравнения этих параметров.Я нашел этот вопрос , но ответы для меня недостаточно конкретны.Я не ищу сравнений между Java и Python, но сравниваю развертывание пользовательских jar-файлов в Hadoop и потоковую передачу на основе Python.
Моя работа заключается в чтении подсчетов NGram из набора данных Google Books NGgram и вычислении совокупных показателей.Похоже, загрузка процессора на вычислительных узлах близка к 100%.(Хотелось бы услышать ваше мнение о различиях, связанных с работой с процессором или с IO).
Спасибо!
Amaç