Я использую R для набора данных, содержащего поездки.Каждая строка - это путешествие (от А до Б).В каждой строке я знаю личность человека (номер), цель поездки (1,2,3 или 4), временную категорию (1,2 или 3) и номер, идентифицирующий тур, в которомпоездка была завершена (тур - это группа поездок; все эти поездки идут от А до А).
Я хотел бы создать новую строку: для того же человека, какова была цель предыдущей поездкив той же категории времени в другом туре.Эта переменная называется "prevDistanceSameTimeCategoryDifferentTour".
У меня есть эта ошибка:
Ошибка в $<-.data.frame
(*tmp*
, "prevDistanceSameTimeCategoryDifferentTour",: замена имеет 2 строки, данные имеют1167
Вот мой код:
prevPersonTimeCategory <- array(-999, dim=c(3,3))
prevPersonTimeCategory[1,1] <- TgData$PersonID[1]
prevPersonTimeCategory[2,1] <- TgData$PersonID[1]
prevPersonTimeCategory[3,1] <- TgData$PersonID[1]
for(i in 2:nrow(TgData)) {
if (TgData$timeCategory[i] == 1) {
if (TgData$tour[i] == prevPersonTimeCategory[1,3]) {
if (prevPersonTimeCategory[1,1] == TgData$PersonID[i]) {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[1,2]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[1,1] <- TgData$PersonID[i]
}
}
else {
if (prevPersonTimeCategory[1,1] == TgData$PersonID[i]) {
prevPersonTimeCategory[1,3] <- TgData$tour[i]
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[1,2]
prevPersonTimeCategory[1,2] <- TgData$purpose[i]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[1,1] <- TgData$PersonID[i]
prevPersonTimeCategory[1,2] <- -999
}
}
}
else if (TgData$timeCategory[i] == 2) {
if (TgData$tour[i] == prevPersonTimeCategory[2,3]) {
if (prevPersonTimeCategory[2,1] == TgData$PersonID[i]) {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[2,2]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[2,1] <- TgData$PersonID[i]
}
}
else {
if (prevPersonTimeCategory[2,1] == TgData$PersonID[i]) {
print(i)
prevPersonTimeCategory[2,3] <- TgData$tour[i]
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[2,2]
prevPersonTimeCategory[2,2] <- TgData$purpose[i]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[2,1] <- TgData$PersonID[i]
prevPersonTimeCategory[2,2] <- -999
}
}
}
else if (TgData$timeCategory[i] == 3) {
if (TgData$tour[i] == prevPersonTimeCategory[3,3]) {
if (prevPersonTimeCategory[3,1] == TgData$PersonID[i]) {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[3,2]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[3,1] <- TgData$PersonID[i]
}
}
else {
if (prevPersonTimeCategory[3,1] == TgData$PersonID[i]) {
prevPersonTimeCategory[3,3] <- TgData$tour[i]
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[3,2]
prevPersonTimeCategory[3,2] <- TgData$purpose[i]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[3,1] <- TgData$PersonID[i]
prevPersonTimeCategory[3,2] <- -999
}
}
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] = -999
}
}
Я создаю массив для хранения информации для каждой временной категории. В этом массиве первое значение является идентификатороминдивидуальный (prevPersonTimeCategory [1,1], prevPersonTimeCategory [2,1], prevPersonTimeCategory [3,1], по одному для каждой временной категории), второй - это цель (prevPersonTimeCategory [1,2] и т. д.) и третийэто номер тура (prevPersonTimeCategory [1,3] и т. д.). Затем я просто читаю каждую строку (для) и пишу несколько условий (если).
Я действительно не вижу, где яЯ делаю ошибку.
Мой набор данных содержит 36'784 строки, но я тестирую 1932 строки (-1 строка для заголовков). Данные выглядят так:
PersonID purpose tour timeCategory
1 1 1 2
1 4 2 3
1 4 2 3
1 4 3 3
1 3 4 3
1 4 5 3
1 4 5 2
1 4 5 3
1 3 5 3
1 4 6 2
1 4 6 2
1 4 6 3
1 3 7 3
1 4 8 3
1 4 9 3
1 4 10 3
1 4 10 3
1 4 11 1
1 4 12 1
1 4 13 1
1 4 14 1
1 4 16 1
1 1 17 2
1 4 18 3
1 4 19 2
1 3 20 3
1 4 20 3
1 4 21 3
1 1 22 2
1 3 22 3
1 3 23 3
1 4 24 3
1 4 25 3
1 4 25 3
1 4 26 3
1 1 27 2
1 3 27 3
1 4 28 3
1 3 28 3
1 4 29 3
1 4 29 3
1 1 30 2
1 4 31 3
1 1 31 2
1 4 32 3
1 3 32 3
1 4 33 3
1 3 34 3
1 4 35 3
1 1 36 2
1 3 36 3
1 4 37 3
1 3 38 3
1 4 39 3
1 3 39 3
1 4 39 3
1 4 40 3
1 4 40 2
1 4 40 3
1 3 41 3
1 4 42 3
1 4 43 3
1 1 44 2
1 3 45 3
1 4 46 3
1 3 47 3
1 3 47 3
1 4 48 2
1 1 49 2
1 4 50 3
1 1 51 2
1 1 51 2
1 2 51 3
1 3 52 3
1 3 53 1
1 4 54 1
1 4 55 1
1 4 55 1
1 4 55 1
1 1 56 3
1 4 57 3
1 4 58 3
1 1 59 2
1 3 59 3
1 4 60 3
1 4 61 3
1 1 62 3
1 3 63 3
1 4 64 3
1 3 65 3
1 4 66 3
1 3 67 3
1 2 68 1
2 3 69 3
2 1 70 3
2 4 71 2
2 1 72 3
2 3 72 3
2 1 72 2
Если я запускаю эту короткую версию своего кода, у меня нет проблем:
prevPersonTimeCategory <- array(-999, dim=c(3,3))
prevPersonTimeCategory[1,1] <- TgData$PersonID[1]
prevPersonTimeCategory[2,1] <- TgData$PersonID[1]
prevPersonTimeCategory[3,1] <- TgData$PersonID[1]
for(i in 2:nrow(TgData)) {
if (TgData$timeCategory[i] == 1) {
if (TgData$tour[i] == prevPersonTimeCategory[1,3]) {
if (prevPersonTimeCategory[1,1] == TgData$PersonID[i]) {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[1,2]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[1,1] <- TgData$PersonID[i]
}
}
}
}
Но если я добавлю еще несколько строк, как здесь:
prevPersonTimeCategory <- array(-999, dim=c(3,3))
prevPersonTimeCategory[1,1] <- TgData$PersonID[1]
prevPersonTimeCategory[2,1] <- TgData$PersonID[1]
prevPersonTimeCategory[3,1] <- TgData$PersonID[1]
for(i in 2:nrow(TgData)) {
if (TgData$timeCategory[i] == 1) {
if (TgData$tour[i] == prevPersonTimeCategory[1,3]) {
if (prevPersonTimeCategory[1,1] == TgData$PersonID[i]) {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[1,2]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[1,1] <- TgData$PersonID[i]
}
}
else {
if (prevPersonTimeCategory[1,1] == TgData$PersonID[i]) {
prevPersonTimeCategory[1,3] <- TgData$tour[i]
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- prevPersonTimeCategory[1,2]
prevPersonTimeCategory[1,2] <- TgData$purpose[i]
}
else {
TgData$prevPurposeSameTimeCategoryDifferentTour[i] <- -999
prevPersonTimeCategory[1,1] <- TgData$PersonID[i]
prevPersonTimeCategory[1,2] <- -999
}
}
}
}
Ошибка вернется:
Ошибка в $<-.data.frame
(*tmp*
, "prevPurposeSameTimeCategoryDifferentTour",: замена имеет 18 строк, данные имеют 1150