Сумма неверна - PullRequest
       11

Сумма неверна

0 голосов
/ 10 июля 2019

Я прочитал в довольно большой файл в R Studio, и я пытаюсь суммировать определенный столбец в этом файле.

чтение в файле:

df3 <- read.csv('Musically-ROW-ADS_M_20180801_20180831_merge (2).csv', header = 3, sep = "\t", skip = 2)

IУже известно, какой должна быть сумма для указанного столбца.

Однако я считаю, что при суммировании столбца это не суммирование всего столбца, а только пропорция?

Мой результат: 24402801Фактическое значение: 41412689

> str(df)
'data.frame':   551263 obs. of  22 variables:
 $ DSP.Code            : chr  "9998703" "9998703" "9998703" "9998703" ...
 $ Report.Date         : int  9212018 9212018 9212018 9212018 9212018 9212018 9212018 9212018 9212018 9212018 ...
 $ Initial.Date        : int  8012018 8012018 8012018 8012018 8012018 8012018 8012018 8012018 8012018 8012018 ...
 $ End.Date            : int  8312018 8312018 8312018 8312018 8312018 8312018 8312018 8312018 8312018 8312018 ...
 $ Transaction.Type    : chr  "STREAM" "STREAM" "STREAM" "STREAM" ...
 $ Sale.Type           : chr  "OTHER" "OTHER" "OTHER" "OTHER" ...
 $ Distribution.Type   : chr  "WIRELESS" "WIRELESS" "WIRELESS" "WIRELESS" ...
 $ Product.s.Origin.ID : logi  NA NA NA NA NA NA ...
 $ Product.ID          : chr  "634041651299" "893583003434" "ABCD13027823" "ABCD13027825" ...
 $ Artist              : chr  "Icekid" "Anna of the North" "Silk Rabbits" "Silk Rabbits" ...
 $ Title               : chr  "Roll it Ft Jfly" "Lovers" "Hurt" "Careless Whisper" ...
 $ Units.Sold          : num  1 1 1 1 2 1 1 1 1 1 ...
 $ Retailer.Price      : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Dealer.Price        : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Additional.Revenue  : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Warner.Share        : int  0 0 0 0 0 0 0 0 0 0 ...
 $ Entity.to.be.Billed : chr  "9998703" "9998703" "9998703" "9998703" ...
 $ E.retailer.name     : chr  "MUSICAL.LY" "MUSICAL.LY" "MUSICAL.LY" "MUSICAL.LY" ...
 $ E.retailer.country  : chr  "US" "US" "US" "US" ...
 $ End.Consumer.Country: chr  "DK" "CA" "ID" "MY" ...
 $ Price.Code          : chr  "STD" "STD" "STD" "STD" ...
 $ Currency            : chr  "USD" "USD" "USD" "USD" ...

Это потому, что файл слишком большой, чтобы вычислить весь столбец?Нужно ли мне увеличивать размер R, чтобы я мог прочитать весь файл?

Я пробовал следующее, если размер файла является проблемой:

memory.limit()
memory.size()

Этокод, используемый для суммирования столбца;

sum(df$Units.Sold, na.rm = T)
[1] 24402801

решено:

> df <- read.csv('Musically-ROW-ADS_M_20180801_20180831_merge (2).csv', header = TRUE, sep = "\t", skip = 2, quote = "")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...