Я работаю над моделью болезни Вильсона. Набор данных содержит профилирование генов Mus Musculus Organizations. Данные имеют 6 выборок подсчета экспрессии GSE5348 по массиву с 2 наборами генотипического типа с нормализованными уровнями экспрессии для каждого гена, а именно: «GSM121554», «GSM121555», «GSM121556», «GSM121547», «GSM121550» и «GSM121552». Наш Цель состоит в том, чтобы предсказать время, в которое вероятность возникновения заболевания максимальна.
Я хочу построить динамическую байесовскую сеть для моего набора данных. Я не могу решить, как принять параметры и временные шаги. Может ли кто-нибудь дать мне целостное представление о структуре DBN, подходящей для моего проекта или любого предложения?
Это оригинальный набор данных
Что я сделал до сих пор:
- предварительная обработка данных
- кластерные гены, чтобы уловить эффект и характеристики заболевания на уровне генома организмов
Визуализация кластеров генов и субкластеров
Рассчитали сходство каждого образца гена с центроидом и классифицировали набор данных на 2 половины:
Сходство образцов генов с центроидом (семя)
a) class1: гены со сходством, большим или равным 95% (меньший риск заражения)
б) класс2: гены со сходством менее 95% (более высокий риск заболевания)
class1=df[df['similarity_percent']<95] #similarity_percent is a column consisting of the similarity of the gene with the centroid.
class2=df[df['similarity_percent']>=95]
Далее классы были разделены на безрисковые, умеренные и адекватные риски с использованием критериев подобия критериев сходства.
#classifying under class1:
adequate_risk_class1=class1[(class1['similarity_percent']>=73) & (class1['similarity_percent']<81)]
moderate_risk_class1=class1[(class1['similarity_percent']>=81) & (class1['similarity_percent']<88)]
no_risk_class1=class1[(class1['similarity_percent']>=88) & (class1['similarity_percent']<95)]
Извините, если не смог, могу объяснить хорошо, но это немного неясно в моей голове, и я не могу продолжать дальше. Но как мне построить DBN для этого