Значения переменной изменяются на N / As после нормализации данных - PullRequest
0 голосов
/ 02 июля 2019

Для полиномиальной регрессии я должен нормализовать свой набор данных (ВВП Бразилии, 1960-2017 гг. По данным мирового банка)

с помощью:

x= x - min(x)
x= x/max(T)           

, изменив «х» на нашу независимую переменную.

Я пытался связаться с лектором без ответа, а также пробовал разные наборы данных, но этот набор - единственный, который не работает.

##Task 3.1##
##Load Data ##
GDP_Brazil <- read_excel("GDP Brazil.xlsx") 

View(GDP_Brazil)

##Plotting the original Data

G=GDP_Brazil[,3]
Time=GDP_Brazil[,2]

##3.2
##Normalization of data

Time= Time - min(Time)
Time= Time/max(Time)

После запуска этого кода данные для этой переменной отсутствуют.

После запуска кода результаты переменной времени изменяются с [1960,2017] на N / A, в то время как она должна быть между [0,1].

Ответы [ 2 ]

0 голосов
/ 02 июля 2019

это tibble. Итак, нам нужно либо [[, либо $ для поднабора, в противном случае это все равно будет tibble с одним столбцом. Это будет иметь эффект, когда мы делаем некоторые вычисления, которые требуют vector

G <- GDP_Brazil[[3]]
Time <- GDP_Brazil[[2]]
0 голосов
/ 02 июля 2019

Вот информация. Набор данных не содержит N / As. Значения даны для каждого года, поэтому я выбрал этот набор данных.

dput(head(GDP_Brazil)
structure(list(`Series Name` = c("GDP (current US$ in billion)", 
"GDP (current US$ in billion)", "GDP (current US$ in billion)", 
"GDP (current US$ in billion)", "GDP (current US$ in billion)", 
"GDP (current US$ in billion)"), Time = c(1960, 1961, 1962, 1963, 
1964, 1965), Brazil = c(15.1655699125199, 15.236854859469, 19.9262938390163, 
23.0214772922093, 21.2118922599904, 21.79003511719)), row.names = c(NA, 
-6L), class = c("tbl_df", "tbl", "data.frame"))
...