Как работать с данными, доступными в разных географических масштабах для машинного обучения? - PullRequest
0 голосов
/ 28 мая 2019

Я провожу эпидемиологическое исследование, где теоретизируются, что результаты сильно зависят от демографических переменных. Недавняя база данных была выпущена с этими результатами, доступными на уровне тракта (гранулярный). Однако не все демографические переменные, которые мне нужны из переписи, доступны в этом масштабе (некоторые доступны только на уровне штата). Как бы вы порекомендовали подходить к этому?

Я пытался просто разбить наборы данных на набор данных уровня состояния и набор данных уровня тракта. Я использовал тест Колмогорова-Смирнова для атрибутов, общих для обоих наборов данных. Целью было выяснить, можно ли экстраполировать выводы, сделанные из набора данных состояния (меньше наблюдений, но больше атрибутов), на любой участок переписи из большего набора данных. Значение p предполагает, что это может быть. Однако меня не устраивает метод. Я чувствую, что должен быть лучший способ сделать это, и учет как можно большего количества атрибутов был бы желателен для моих целей.

...