Почему моя пропускная способность и средняя скорость ввода-вывода стали медленнее, когда я добавляю узел в кластер Hadoop? - PullRequest
0 голосов
/ 20 июня 2019

Итак, я запустил TestDFSIO в своем кластере, чтобы увидеть пропускную способность и среднюю скорость операций чтения и записи. я делаю 4 теста: 4 файла по 256 МБ каждый (всего 1 ГБ) 2 файла по 256 МБ каждый (всего 512 МБ) 2 файла по 128 МБ каждый (всего 256 МБ) 1 файл 50 МБ (всего 50 МБ)

и я запускаю их на кластере hadoop от одного до пяти узлов. с размером блока 256 МБ и для каждого узла имеют различную репликацию (один узел = 1 репликация, 2 узла = 2 репликации и т. д.).

вот результат теста данных 1 ГБ 1 узел

----- TestDFSIO ----- : write
           Date & time: Thu Jun 20 11:38:21 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 8.503288381053611
Average IO rate mb/sec: 8.507380485534668
 IO rate std deviation: 0.18595730311606032
    Test exec time sec: 84.876

----- TestDFSIO ----- : read
           Date & time: Thu Jun 20 11:39:52 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 14.351786965662228
Average IO rate mb/sec: 14.422638893127441
 IO rate std deviation: 1.0515649052955383
    Test exec time sec: 61.371

2 node
----- TestDFSIO ----- : write
           Date & time: Thu Jun 20 11:15:52 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 2.557167936510315
Average IO rate mb/sec: 2.5574562549591064
 IO rate std deviation: 0.027311795003682558
    Test exec time sec: 150.506

----- TestDFSIO ----- : read
           Date & time: Thu Jun 20 11:18:04 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 9.567321617101587
Average IO rate mb/sec: 9.673456192016602
 IO rate std deviation: 1.0593562755825534
    Test exec time sec: 79.333

3 node
----- TestDFSIO ----- : write
           Date & time: Thu Jun 20 10:42:47 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 2.343067129788529
Average IO rate mb/sec: 2.3866918087005615
 IO rate std deviation: 0.3233444726530288
    Test exec time sec: 167.593

----- TestDFSIO ----- : read
           Date & time: Thu Jun 20 10:47:33 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 11.901164547546546
Average IO rate mb/sec: 12.255699157714844
 IO rate std deviation: 2.2415787547598667
    Test exec time sec: 69.29

4 node 
----- TestDFSIO ----- : write
           Date & time: Thu Jun 20 10:23:19 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 1.6539390885245053
Average IO rate mb/sec: 1.6625666618347168
 IO rate std deviation: 0.12093049037575003
    Test exec time sec: 205.164

----- TestDFSIO ----- : read
           Date & time: Thu Jun 20 10:25:23 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 19.842653954966476
Average IO rate mb/sec: 20.02923583984375
 IO rate std deviation: 1.9719328195872965
    Test exec time sec: 57.25

5 node
----- TestDFSIO ----- : write
           Date & time: Thu Jun 13 12:50:12 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 1.5617159964556366
Average IO rate mb/sec: 1.573684573173523
 IO rate std deviation: 0.14426118715726127
    Test exec time sec: 219.959

----- TestDFSIO ----- : read
           Date & time: Thu Jun 13 14:01:01 WIB 2019
       Number of files: 4
Total MBytes processed: 1024.0
     Throughput mb/sec: 18.00692844707827
Average IO rate mb/sec: 18.323461532592773
 IO rate std deviation: 2.501963465819598
    Test exec time sec: 64.316

Я подумал, что с большим количеством узлов работа стала более распараллеливать и увеличивать пропускную способность. почему операция записи значительно снижается при добавлении нового узла?

1 Ответ

0 голосов
/ 21 июня 2019

Ваши размеры данных слишком малы.Одна система может легко обрабатывать 1 ГБ данных.Учитывая, что это самый большой размер, который вы используете, неудивительно, что вы видите эти результаты.

Увеличьте это на несколько порядков примерно до 100 ГБ-1 ТБ, иначе не будет никакого смысла выводить результаты производительностииз этого типа тестирования.

...