Итерация по каждой строке большого набора данных R-Studio - PullRequest
0 голосов
/ 19 июня 2020

Предположим, у меня есть список из 1500000 штатов с заданными почтовыми индексами, и я хочу запустить свою модель предиктора (базы данных) в этом списке и получить прогнозы площади. Я сделал то же самое с помощью одного джентльмена, и вот мой code:

pred <- sapply(1:nrow(first), function(row) { predict(basdata,first[row, ],estimator="BMA", interval = "predict", se.fit=TRUE)$Ybma })
  1. basdata: My Model
  2. first: Мой новый набор данных, для которого я прогнозирую площадь.

Теперь проблема, с которой я столкнулся, заключается в том, что коду требуется много времени, чтобы предсказать значения. Он перебирает каждую строку и вычисляет площадь. В моем наборе данных 150000 строк, и я хотел бы попросить кого-нибудь помочь мне оптимизировать производительность этого кода.

1 Ответ

0 голосов
/ 22 июня 2020

Я хотел бы поблагодарить onyambu за предоставление мне решения, поскольку я просто делал функцию прогнозирования более сложной. Следующий код можно использовать для перебора каждой строки набора данных и прогнозирования значений с использованием построенной модели.

predict(basdata,first,estimator="BMA", interval = "predict", se.fit=TRUE)$Ybma
...