Мне кажется, я не задаю правильный вопрос для начала.
Новый вопрос:
У меня есть 1,5-гигабайтный файл TSV. Он имеет 6 строк мусора вверху и одну строку мусора внизу, и все это я хочу удалить, не открывая файл. Строка 7 - заголовки. У меня 13 заголовков. Количество рядов неизвестно.
Как мне прочитать файл в фрейм данных, чтобы я мог выполнять базовую описательную статистику, коробочные диаграммы и т. Д ....
Оригинальный вопрос:
Привет
У меня такое чувство, что это действительно легко. Я просто что-то упускаю.
У меня есть текстовый файл, разделенный табуляцией, с 6 строками мусора вверху и строкой барахла в самом низу.
Между барахлом у меня есть данные формы
Label1 Label2 Label3 Label4 .... Label13
текстовый идентификационный номер процент .... число
Вот что я ввожу в R:
datadump <- read.delim2("truncate.txt", header=TRUE, skip="6")
cleandata <- datadump[c(-dim(datadump)[1]),]
avgposition <- cleandata$Avg.Position
hist(avgposition)
Avg.Position - label13 и номер формы #. #
Все же я получаю ошибку:
Ошибка в hist.default (avgposition): 'x' должно быть числовым
Почему данные не воспринимаются как числовые?
Спасибо!
По запросу вот некоторые данные:
> dput(cleandata)
structure(list(Account = structure(c(2L, 2L), .Label = c("Crap1",
"XXS"), class = "factor"), Campaign = structure(c(1L, 1L), .Label = c("3098012",
"Crap2"), class = "factor"), Customer.Id = structure(c(2L, 2L
), .Label = c("", "nontech broad (7)"), class = "factor"), Ad.Group = structure(c(2L,
2L), .Label = c("", "RR 236 (300)"), class = "factor"), Keyword = structure(2:3, .Label = c("",
"chagall pro", "matisse"), class = "factor"), Keyword.Matching = structure(c(2L,
2L), .Label = c("", "Broad"), class = "factor"), Impressions = c(4L,
16L), Clicks = c(1L, 1L), CTR = structure(2:3, .Label = c("",
"25.00%", "6.25%"), class = "factor"), Avg.CPC = structure(2:3, .Label = c("",
"$0.05 ", "$0.11 "), class = "factor"), Avg.CPM = structure(2:3, .Label = c("",
"$12.50 ", "$6.88 "), class = "factor"), Cost = structure(2:3, .Label = c("",
"$0.05 ", "$0.11 "), class = "factor"), Avg.Position = structure(2:3, .Label = c("",
"3", "3.1"), class = "factor")), .Names = c("Account", "Campaign",
"Customer.Id", "Ad.Group", "Keyword", "Keyword.Matching", "Impressions",
"Clicks", "CTR", "Avg.CPC", "Avg.CPM", "Cost", "Avg.Position"
), row.names = 1:2, class = "data.frame")