Преодолеть ограничение размера Excel для анализа использования в большой сети - PullRequest
0 голосов
/ 14 октября 2011

Я анализирую использование процессора в большой сети. Для этого мне предоставили большой лист Excel. Он содержит batchID (означает, что мы выделяем ЦП для выполнения этой задачи) startTime, endTime (означает, что мы знаем, что ЦП полностью занят в это время).

На основании этих данных мне нужно понять, сколько пакетов запущено в конкретном экземпляре. Поэтому я буду использовать чат с осью X в качестве времени, а ось Y - в количестве пакетов, запущенных в каждый момент времени.

Весь файл содержит более 15000 строк за два дня. Вот часть этого.

BATCHID     startTime             endTime
560062  13/10/2011 11:59:23 13/10/2011 11:59:26
560061  13/10/2011 08:59:18 13/10/2011 08:59:21
560060  13/10/2011 05:59:21 13/10/2011 05:59:30
560059  13/10/2011 02:59:34 13/10/2011 02:59:43
560058  13/10/2011 01:57:24 13/10/2011 01:57:29
560057  13/10/2011 01:57:24 13/10/2011 01:57:28
560056  12/10/2011 23:59:19 12/10/2011 23:59:28
560055  12/10/2011 20:59:21 12/10/2011 20:59:30
560054  12/10/2011 18:02:13 12/10/2011 18:02:22
560053  12/10/2011 18:02:13 12/10/2011 18:02:21
560052  12/10/2011 18:02:12 12/10/2011 18:02:21
560051  12/10/2011 18:02:07 12/10/2011 18:02:16
560050  12/10/2011 18:02:03 12/10/2011 18:02:11
560049  12/10/2011 18:02:10 12/10/2011 18:02:19
560048  12/10/2011 18:02:11 12/10/2011 18:02:16
560047  12/10/2011 18:02:09 12/10/2011 18:02:13
560046  12/10/2011 18:02:04 12/10/2011 18:02:13
560045  12/10/2011 18:02:12 12/10/2011 18:02:21

Requirment:

  1. Нам нужен массив для хранения данных временного интервала. Это может быть каждые 1 минуту или 5 минут. Если нам нужно проанализировать два дня для каждого интервала в 1 минуту, нам может потребоваться 2880 точек данных для оси X.
  2. Потому что в любом случае может выполняться много заданий. Нам понадобится механизм для подсчета количества запущенных партий в этот временной интервал.

Я подозреваю, что Excel 2003 может хорошо работать, так как количество столбцов ограничено 256.

Я приветствую любые советы о том, как эффективно выполнить эту задачу в Octave / MATLAB, ORACLE PL / SQL, R или Bash Script.

Превышение предела размера Excel для анализа использования в большой сети

1 Ответ

0 голосов
/ 14 октября 2011

Я бы изменил данные на что-то вроде:

BATCHID START/END  TIME                NUM_TASKS
560062  START      13/10/2011 11:59:23    1
560062  STOP       13/10/2011 11:59:26    0

Закажите его по времени и вычислите NUM_TASKS как значение предыдущей строки +1 для START и -1 для STOP. Затем вы можете просто построить график TIME vs NUM_TASKS и сделать любое сглаживание или интервалы, которые вы хотите в самом графике.

...