Потоковая передача Hadoop позволяет нам писать карту и сокращать функции на любом языке программирования или сценариев, который поддерживает чтение данных из стандартного ввода и запись в стандартный вывод. Эта функция делает Hadoop Streaming очень гибким и может легко использоваться большим количеством пользователей. R, Python, C ++ или почти любой другой язык.
Существует множество параметров, которые можно настроить, например, число картографов, количество редукторов, память jvm, формат ввода, формат вывода и т. Д. Формат ввода по умолчанию для заданий потоковой передачи hadoop - TextInputFormat, который считывает данные одной строкой в время.
Hadoop API
В значительной степени связывает вас с Java, но конфигурация и разработка более просты, так как все может быть настроено из самого кода Java. По моему опыту, Java кажется немного быстрее, но потоковая передача может быть довольно близка, когда правильно настроена и используется с правильным языком.