У меня есть задание MapReduce только на стороне карты (0 редукторов), есть ли способ ограничить количество создаваемых строк? Ничего страшного, если решение является приблизительным (т.е. оно выводит немного больше или меньше, чем хотелось бы).
Я ищу MapReduce, эквивалент
cat filename | $UNIXEY_THINGS | head -10000000
каждый картограф (разделите $ NUM_ROWS на $ NUM_MAPPERS), но это означает, что мне придется установить количество картографов, и мои исследования показывают, что это невозможно. Объединение этого в один редуктор не похоже на то, что он будет производительным.
Похоже, что степень координации между процессами делает это невозможным или, по крайней мере, невозможным без значительного снижения производительности. Я прав в этом?