Я пытаюсь объединить 2 набора данных. Один содержит
Год, почтовый индекс, ID, месяц, товар, кредит
, а другой
ID, год, месяц, ZIP, Имя, Уровень
Я хочу, чтобы файл слияния содержал всю мою первую информацию о наборе данных + всю дополнительную информацию из набора данных (уровень и имя). Когда я объединяю их, у меня плохой результат, много дубликатов по годам и месяцам, и я не знаю почему?
моя кодировка
b <- merge(file name 1, file name 2,by=c("YEAR","Month","Postal"))
Да, оба моих файла имеютГоды с 2010 по 2016 год, но как минимум более 1 000 000 наблюдений. Идентификаторы уникальны. но у меня не все есть все мои идентификаторы из файла № 2, подходящий файл 1, некоторые отсутствуют. но почтовый индекс будет соответствовать моим пустым значениям
, например, для примера
id reg вес кластера 1 a 0 59 2 b 0 52 3 e 1 46 4 f 1 46 5 g 2 66 6 h2 18 7 e 8 f
В таблице 2 (90 строк) указаны гены, принадлежащие каждому кластеру:
id генный кластер 2 1 0 1 2 1 4 3 0 3 4 2 5 5 06 6 0 8 7 1 Я хочу создать таблицу 3 из этих двух, которая выглядит следующим образом:
id reg gen weight 1 a 1 59 2 a 3 59 3 a 5 59 4 a 6 59 5 b 152 6 б 3 52 7 е на нет 8 ф на нет
…