У меня есть биологический набор данных из 576 генов, представляющих интерес, и назначенных им функциональных категорий. У меня также есть назначенные функциональные категории для всех генов в геноме вида, с которым я работаю. Это позволяет мне настроить взвешенное, случайное рисование, где я могу выбрать 576 генов / функциональных назначений из генома и посмотреть, как распределены различные функциональные категории. Я повторил это 1 миллион раз, что кажется излишним; однако, для одной из моих категорий, я в настоящее время не могу имитировать такое же экстремальное значение, как в генах интереса.
Для обеспечения контекста, функциональная категория (давайте обозначим «А») представляет 14% генома и 28% интересующих генов. Наивысшее значение, которое я смоделировал, составляет 22,92% для категории A, а доверительный интервал 97,5% составляет 17,19%. Это доставляет мне проблемы, когда я начинаю вычислять р-значение, как я делаю это эмпирически, т. Е. (Количество значений, смоделированных для А, которые превышают значение А для интересующих генов) / (общее количество симуляций), поэтому мое значение р просто ноль.
len([i for i in probs_dict["A"] if i > target_per])/total_sims
Есть ли другой способ для вычисления p-значений здесь или для представления высокой степени перепредставления?