Рассчитать дисперсию без использования функции VAR в RStudio - PullRequest
0 голосов
/ 04 ноября 2019

Поэтому я пытаюсь вычислить дисперсию в SQL в программе RStudio для моего университета. Это было бы простой задачей, если бы программа знала функцию, но я либо пропустил ее, либо перепутал что-то совершенно другое.

По сути, у нас есть один список с домами, годом их постройки и, если они перестроены (в том же году) с SalePrice. Некоторые другие столбцы тоже, но они не участвуют в этом.

В любом случае, это моя последняя попытка после попытки использовать функцию VAR (), а также.numeric в R, где это не "принудительно"тип S4 к вектору типа 'double' или объект (список) не может быть приведен к типу 'double' '..

dbSendQuery(con,"SELECT SalePrice FROM Houses WHERE YearBuilt!=YearRemod - (SELECT AVG(SalePrice) FROM Houses WHERE YearBuilt!=YearRemod) / (SELECT COUNT(SalePrice) FROM Houses WHERE YearBuilt!=YearRemod);")

Я знаю, что мои подвыборы не будут работать так, номожет быть, кто-то здесь может помочь мне понять, как это сделать правильно.

Может быть, кто-то может даже сказать мне, какие пакеты мне нужно сделать ВСЕ в SQL. Пока я установил DBI, dplyr, dbplyr, odbc и RSQLITE.

Заранее спасибо, и я прошу прощения за мою любительскую попытку подбора.

1 Ответ

0 голосов
/ 05 ноября 2019

Хотя ваш вопрос не содержит основной необходимой информации и предыстории, мне кажется, что в работе есть базовые заблуждения.

R и SQL не являются взаимозаменяемыми языками, и хотя IDE RStudio может интерпретировать SQL, он не делает этого изначально.

Я рекомендую вам прочитать эту статью о соединении R и SQL:

https://db.rstudio.com/getting-started/database-queries/

Используя ноутбук, вы можете использовать код SQL для подмножества данных и их сохранения. в качестве кадра данных "mydataframe":

```{sql, connection=con, output.var = "mydataframe"}
SELECT SalePrice FROM Houses WHERE YearBuilt!=YearRemod
\```

Использование R для анализа данных выглядит так:

var(mydataframe$SalesPrice)
...