Представьте, что у вас есть набор из пяти элементов (A-E) с некоторыми числовыми значениями измеряемого свойства (несколько наблюдений для каждого элемента, например, «частота сердечных сокращений»):
A = {100, 110, 120, 130}
B = {110, 100, 110, 120, 90}
C = { 90, 110, 120, 100}
D = {120, 100, 120, 110, 110, 120}
E = {110, 120, 120, 110, 120}
Сначала , я должен определить, есть ли существенные различия в средних уровнях. Поэтому я запускаю односторонний ANOVA , используя Статистический пакет, предоставленный Apache Commons Math . Пока никаких проблем, я получаю логическое значение, которое сообщает мне, найдены различия или нет.
Второй , если обнаружены различия, мне нужно знать элемент (или элементы), который отличается от остальных . Я планирую использовать непарные t-тесты , сравнивающие каждую пару элементов (A с B, A с C .... D с E), чтобы узнать, отличается ли один элемент от другого. Итак, на данный момент у меня есть информация о списке элементов, которые представляют существенные различия с другими, например:
C is different than B
C is different than D
Но мне нужен общий алгоритм, чтобы с этой информацией эффективно определить, какой элемент отличается от других (в примере C, но может быть больше одного).
Если оставить в стороне статистические вопросы, вопрос может быть (в общих чертах): "Учитывая информацию о равенстве / неравенстве каждой из пар элементов в коллекции, как вы можете определить элемент (ы), который отличается от других? "
Кажется, это проблема, где теория графов может быть применена. Я использую Java язык для реализации, если это полезно.
Редактировать: Элементы - это люди, и измеренные значения - это время, необходимое для выполнения задачи. Мне нужно определить, кому требуется слишком много или слишком мало времени, чтобы выполнить задачу в какой-то системе обнаружения мошенничества.