У меня большой набор данных в R (1.2M записей).Это некоторые чтения для разных протоколов.Теперь я хотел бы классифицировать эти данные (что я могу сделать с rpart / RWeka).Однако сначала мне нужно обработать данные, и этот вопрос как раз об этом.
Набор данных состоит из пары выходов (пропускная способность, время отклика) для каждого набора параметров управления для 4 различных протоколов.Теперь я хотел бы «связать» эти значения, и для каждого набора параметров управления выбирайте только те протоколы, которые имеют 10% максимальной пропускной способности (для этого набора входных параметров) и 10% минимального времени отклика.
Я знаю, что могу использовать агрегат, чтобы найти максимальную пропускную способность, минимальное время отклика в другом data.frame, а затем соединить его с оригинальным data.frame.Затем я могу использовать ifelse, чтобы найти эти имена протоколов, соответствующие критериям.Однако это мне кажется неэффективным, и я не знаю, как бы я закодировал несколько совпадений (для набора входных значений) в одном столбце.
Есть предложения?
Пример (REQS и REPS являются входными параметрами):
PROTO REQS REPS THR RT
A 8 8 10 1
B 8 8 9.5 2
C 8 8 7 1.1
A 16 8 10 4
B 16 8 5 1
C 16 8 1 0.5
A 8 16 8 1
B 8 16 10 1.09
C 8 16 9.5 1
Должно выдать что-то вроде:
REQS REPS THRGOOD RTGOOD BOTHGOOD
8 8 A,B A,C A
16 8 A C empty
8 16 B,C A,B,C B,C