Как бы вы построили этот фрейм данных? - PullRequest
0 голосов
/ 12 апреля 2020

У меня есть следующий фрейм данных, который в основном сделан для анализа масштабируемости с увеличением числа процессов и / или потоков. «Измерение» относится к размеру набора данных (#rows в миллионах), и у меня будет файл, подобный следующему, для каждого доступного измерения набора данных (0,5M, 1M, 2M и т. Д. c.).

DIMENSION,NUM.PROCESS,NUM.THREADS,OVERALL,LOADING,SCATTERING,PROCESSING,WRITING
0.5M,1,1,6.626650000000001,4.69791,1.2477233333333331e-05,1.9248733333333334,0.003848233333333333
0.5M,1,2,7.792576666666666,5.0457133333333335,1.31925e-05,2.7431533333333333,0.003694773333333333
0.5M,1,3,7.858246666666667,4.792463333333333,1.4225633333333333e-05,3.06237,0.003389676666666666
0.5M,1,4,8.011076666666666,4.65277,1.27951e-05,3.3550533333333337,0.003233673333333333
0.5M,2,1,3.4705399999999997,2.490763333333333,0.00040102,0.9778126666666666,0.0030802866666666665
0.5M,2,2,3.9319633333333335,2.469123333333333,0.00045132633333333337,1.4607166666666667,0.0033062300000000003
0.5M,2,3,4.45186,2.4963166666666665,0.00041409333333333336,1.9529633333333336,0.00428764
0.5M,2,4,4.640616666666666,2.504073333333333,0.00040137766666666666,2.1336033333333333,0.005021016666666667
0.5M,3,1,2.4153566666666664,1.7355766666666668,0.0005771846666666666,0.6778476666666666,0.004004876666666666
0.5M,3,2,3.0496733333333332,1.7336133333333332,0.0005711980000000001,1.3139866666666664,0.004399696666666667
0.5M,3,3,3.0809466666666663,1.7270433333333335,0.000580867,1.3519666666666665,0.004020613333333333
0.5M,3,4,2.959936666666666,1.72976,0.0006071726666666666,1.22804,0.004531146666666666
0.5M,4,1,1.8750433333333334,1.3485833333333332,0.0006399553333333334,0.5248786666666666,0.0037044666666666668
0.5M,4,2,2.44596,1.3146399999999998,0.0007285873333333333,1.1295033333333333,0.004117566666666667
0.5M,4,3,2.3221166666666666,1.3147666666666666,0.000653366,1.0055699999999999,0.004401843333333333
0.5M,4,4,2.254246666666667,1.3492133333333332,0.0006715853333333333,0.9032083333333333,0.004543619999999999

Моя идея состоит в том, чтобы построить для каждого размера набора данных по оси X число. процессоров и по оси Y общее время, добавляя новую строку для каждого количества используемых потоков. Конечно, с этими данными я также мог бы вывести много разных статистических данных. Теперь я хотел бы знать:

1) Какую статистику, по вашему мнению, было бы лучше вывести, и как будет выглядеть ваш график?

2) Какую библиотеку вы порекомендуете и как Вы бы это реализовали? Я использую pandas для манипуляции csv.

Пожалуйста, прокомментируйте, если вам нужны дополнительные разъяснения или информация. Заранее спасибо.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...