У меня есть вопрос, касающийся необходимости использования некоторой пространственной коррекции при моделировании генных переменных.
У меня есть следующие переменные:
Chr, gene_start, gene_end, number_of_bases_with_info ,iversity_before ,iversity_after , delta_diversity, рекомбинация, дивергенция, GC_content, selection_coefficient.
Моя переменная ответа: потерянное в разнообразии (delta_diversity), который являетсяiversity_before -iversity_after.
Моими объясняющими переменными являются: рекомбинация, дивергенция , GC_content и коэффициент выбора.
Тем не менее, я также рассматриваю разнесение в начале (iversity_before), так как потеря в разнесении может быть обусловлена начальным разнесением, а number_of_bases_with_info, что в идеале должно быть gene_end-gene_start, но иногда нам не хватает информации какой-то позиции, и, следовательно, может быть меньше.
Прямо сейчас мой код выглядит следующим образом:
library(mgcv)
model <- gam (delta_diversity ~
s(number_of_bases_with_info, bs="tp", k=10) +
s(diversity_before, bs="tp", k=10) +
s(recombination, bs="tp", k=10, m=2)+
s(divergence, bs="tp", k=10)+
s(GC_content, bs="tp", k=10)+
s(selection_coefficient, bs="tp", k=10),
# Dataframe
data=dataframe,
# Method and family
method="REML", family="gaussian")
Однако мои графики остатков выглядят ужасно!
Мне было интересно, не учитывает ли пространственная автокорреляция какое-либо влияние на эти шаблоны и как это учитывать, потому что, насколько я знаю, обычный подход:
corExp(form=~Latitude + Longitude)
, который не применяется здесь, так как у меня есть координаты (от положения х до положения у) в хр.
Мои вопросы:
Разве нельзя учитывать пространственную корреляцию, ответственную за эту странную схему остатков?
Должен ли я ее рассмотреть и как?
Любые другие отзывы о том, почему мои остатки выглядят так странно или как улучшить мою модель, более чем приветствуются.