Я учусь в 10 классе и собираюсь смоделировать данные для проекта ярмарки машинного обучения. Окончательная модель будет использоваться для данных пациента и будет предсказывать корреляцию между определенным временем недели или дня и эффектом, который это оказывает на соблюдение режима приема лекарств в данных одного пациента. Значения приверженности будут в десятичных пропорциях (то есть в среду они принимали лекарство в нужное время дважды из необходимых 3 раз, значение приверженности для этой среды будет 0,67). Я стремлюсь создать модель машинного обучения, которая способна учиться на основе взаимосвязи между днями недели и временем суток и приверженности пациента и прогнозировать приверженность в тестовых наборах, когда им присваивается ярлык «дни недели» или «время суток». Для этого я собираюсь смоделировать данные на 1000 пациентов. Каждый пациент получит данные за 30 недель. Данные будут разбиты на 4 группы по 250 пациентов. в первой группе один тренд (время суток до присоединения) будет считаться статистически значимым. В другой группе другая тенденция будет считаться статистически значимой (день недели до присоединения). В другом случае обе тенденции будут значительными, а в другой ни одна из тенденций не будет значимой.
Однако, чтобы решить, будет ли из многих временных дней один день статистически значимым влиять на приверженность, следует использовать F-тест, так как задействовано несколько переменных. Я не могу просто сделать приверженность в определенный день намного ниже, чем в другие, и надеюсь на лучшее, так как статистически необходимо считать тенденцию .
Я понимаю, что существуют модули для оценки набора данных с использованием F-теста, но я ищу способ создания данных, которые пройдут F-тест. Эти данные не будут линейными, что усложнит задачу.
Есть ли у кого-нибудь предложения о том, как мне поступить, или мне вообще следует использовать другой подход?
Буду очень признателен за любую помощь (даже общие комментарии к моему проекту) !!