У меня есть набор данных, который имеет четыре строковые переменные, соответствующие ответам кандидата на тест, например: " ECEABBBDACBBBADEEDCBBCBCEBAACABEABECCEADEADCE ".
Набор данных имеет четыре теста (четыре переменные ) с 45 ответами (45 - длина строки), и я wi sh, чтобы разбить каждую переменную на 45, всего 180 переменных.
У меня есть:
NU_INSCRICAO* | TX_RESPOSTAS_CN | TX_RESPOSTAS_CH | TX_RESPOSTAS_LC | TX_RESPOSTAS_MT
Я ожидаю :
NU_INSCRICAO* | Q1 | Q2 | ... | Q179 | Q180
* NU_INSCRICAO - это мой столбец идентификаторов
Ссылка на образец набора данных: https://pastebin.com/YK477UzW
My код:
for(i in 1:nrow(sample)) {
for(j in 2:5) {
for(k in 1:45) {
answer <- substring(sample[i, j], k, k)
correct <- substring(sample[i, j], k, k)
if(answer == correct) {
output*[i, (((j - 1) * k) + 1)] <- 1
} else {
output*[i, (((j - 1) * k) + 1)] <- 0
}
}
}
}
* Структура кадра выходных данных была ранее создана с помощью NU_INSCRICAO, скопированной из набора данных образца
Я хочу узнать лучший способ сделать это .
Образец набора данных содержит 1000 строк, но мой реальный набор данных содержит более 3 миллионов, поэтому любые предложения об этом с помощью SQLite также помогут мне.
* Все * в этом посте только для иллюстрации, они не в реальном коде