У меня есть 1x мастер и 1 узел настройки, и я обрабатываю файл размером 5 МБ.Я обнаружил, что общее время обработки почти такое же, как показано ниже, с датодой или без нее.Я имею в виду процессорное время, потраченное почти на 6 секунд.Кто-нибудь может ответить здесь, что датодель действительно выполняет свою работу?
Как я могу это контролировать?
Map input records=1
Map output records=802685
Map output bytes=8428185
Map output materialized bytes=10033561
Input split bytes=97
Combine input records=0
Combine output records=0
Reduce input groups=3
Reduce shuffle bytes=10033561
Reduce input records=802685
Reduce output records=3
Spilled Records=1605370
Shuffled Maps =1
Failed Shuffles=0
Merged Map outputs=1
GC time elapsed (ms)=527
CPU time spent (ms)=5800
Physical memory (bytes) snapshot=550604800
Virtual memory (bytes) snapshot=5864865792
Total committed heap usage (bytes)=421007360
Peak Map Physical memory (bytes)=416796672
Peak Map Virtual memory (bytes)=2929139712
Peak Reduce Physical memory (bytes)=133808128
Peak Reduce Virtual memory (bytes)=2935726080
Я столкнулся с проблемой нехватки памяти при запуске файла размером 20 МБ.Я установил 4 ГБ для этой обработки.Хотите знать, почему этот hadoop потребляет так много ресурсов.
Это всего лишь карта, уменьшающая работу, как простой текст ниже и производящий вывод числа ниже.
,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,TrainBUS,car,