Исследование панели анализа в R - PullRequest
0 голосов
/ 14 октября 2018

Я новичок в Stackoverflow, stats и R, поэтому извиняюсь за простоту моего вопроса / просьбы о совете:

Я заканчиваю анализ большого набора данных, состоящего из 2 файлов: aTXT, содержащий внутренние данные о температуре и второй файл данных SPSS.

Для начала я экспортировал данные SPSS в формат CSV и обрезал их, чтобы они содержали только несколько столбцов, которые, как мне кажется, мне нужны - тип дома и тип жильца,Я импортировал все данные о температуре и объединил их с помощью общего идентификатора.

Итак, теперь у меня есть объединенный фрейм данных, содержащий все данные, которые мне нужны (для начала), чтобы начать завершать некоторый анализ.

Первый вопрос: У меня есть год, дата и время в виде отдельных столбцов.Однако столбец времени импортирован с неверной датой до «30.12.1899».Как я могу удалить часть даты всех наблюдений из этого столбца, но сохранить время?

Второй вопрос Как и выше, столбец даты показывает правильную дату, но имеет время, следующее, что не правильно (каждое наблюдение показывает 00:00:00), как я могу удалить все время из этого столбца?

Третий вопрос Как я могу объединить правильное время с правильнымдата, чтобы закончить с ДД / ММ / ГГГГ ЧЧ: ММ: СС

Четвертый вопрос Должен ли я создать подмножества слияния для облегчения анализа: т.е. каждый тип дома (отдельные подмножества)против температуры, времени и типа пассажира?

1 Ответ

0 голосов
/ 14 октября 2018
  1. С помощью параметра as.is = TRUE можно вводить даты, как они есть, а не как фактор, т.е.

    data <- read.csv(choose.files(), as.is = T)
    

Я бы попробовал прочитать CSVснова файл, а затем работает с датой и временем.Это будет хрон или какой-то подобный формат, и вам нужно будет изменить его на Posixct, что ж, в любом случае, я делаю.Чтобы просмотреть справку по функции, введите знак вопроса и имя функции, например ?as.posixct.

Дата. Время: хрон "2018/08/04 10:10:00", ... # '% Y-% m-% d% H:% M:% S' текущийформат, считанный из моей системы.

# Date format you want is '%d/%m/%Y %H:%M'
# tz='' is an empty time zone can't remember exactly you probably should read up on
# finally on the left side of the assign <- I am creating a new column Date. 
# You can over write the old column, Date.Time, but can't hurt to learn how to delete
# a column.
data$Date <- as.POSIXct(date$Date.Time, tz='', '%d/%m/%Y %H:%M:%S')

# Now remove the original column. -Date.Time take out Date.Time, if you leave the
# minus out, the data will contain the subset Date.Time and no other columns.
data <- subset(data, select =  -Date.Time)

Попробуйте сначала, и я рассмотрю удаление времени в поле даты.У меня есть идея, но я бы предпочел посмотреть, поможет ли это в первую очередь решить проблему.

Хотя, если вы действительно хотите объединить столбцы Year, month, day, вы можете попробовать что-то вроде этого, выглядеть какЛогично, вы всегда можете сохранить оригинальный формат и удалить его позже.Это ничего не ранит.

data$YMD <- paste(data$Year," ",
                  data$Month, " ",
                  data$Day)

Кроме того, пока вы на нем.Установите библиотеку dplyr, написанную тем же парнем, что и ggplot2, Хэдли ....

install.packages("dplyr")

# The add it to the top of your file like ggplot.
library(dplyr)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...