R - Добавить перекрытия в виде столбцов вместо строк - PullRequest
0 голосов
/ 02 декабря 2018

Я работаю с некоторыми генетическими данными в двух файлах.В одном у меня есть экспериментальные данные, а в другом - справочные данные.Оба файла имеют базовый формат хромосомы #, начальную позицию, конечную позицию, но у одного есть семейный столбец.Я хочу использовать хромосому, запуск и остановку экспериментальных данных в качестве ключа, чтобы найти совпадения со вторым набором.Цель состоит в том, чтобы при каждом совпадении я мог добавить фамилию в строку экспериментальных данных.Я могу сделать это, но проблема в том, что список из 57 наблюдений становится списком из более чем 700 наблюдений, потому что во многих случаях диапазон начала / окончания эксперимента достаточно велик, чтобы охватить несколько семейств.Вместо того, чтобы надувать общее количество наблюдений, в которых единственной отличительной чертой является семья, я думаю, что было бы более целесообразно добавить как можно больше семейств (обычно 1-2, но переменных) к концу существующих строк экспериментальных данных..

Я не очень хорош в создании фиктивных данных, но с точки зрения настройки это должно выглядеть правильно:

test1 = data.frame(Chrom = c(1:5),Start = c(1000,2000,3000,4000,5000),End=c(1999,2999,3999,4999,5999))
test2 = data.frame(Chrom = c(2,2,5),Start = c(1500,3500,1050),End=c(2500,4000,1060),Family=c("ThingA","ThingB","ThingC"))

Я думаю, что лучшее решение будет иметь общее количествонаблюдений, которые равны наблюдениям в test1, но будут иметь количество столбцов, равное максимальному количеству перекрытий test2 для данного диапазона.

...