Не удается привести в порядок данные в R - PullRequest
0 голосов
/ 27 октября 2018

У меня есть набор данных, который содержит данные наблюдений за 8 марками дезодоранта (данные вымышлены) в нескольких разных магазинах.Наблюдаемые данные:

  • Неделя: неделя, в которую проводилось наблюдение
  • Сеть: магазин, в котором проводилось наблюдение
  • Бренд:марки дезодоранта соблюдены
  • Продажи: объем продаж
  • Цена: цена, по которой супермаркет купил продукт
  • Розничная цена: цена, по которой бренд продается покупателю
  • Отображение: число, пропорциональное количеству возможностей отображения, которые бренд получил в то время
  • Функция: число, пропорциональное количеству рекомендуемых возможностей, которые бренд получил в то время
  • DisplayFeature: число, пропорциональное количеству рекомендуемых и отображаемых возможностей, которые бренд получил в то время (когда присутствовали как функции, так и возможности отображения)

Для меня самый логичный способпредставление этих данных будет означать организацию каждой из перечисленных выше переменных в столбце, где каждая строка соответствует наблюдениюТион.Однако полученный мной файл данных был представлен следующим образом:

Нет столбца переменной для бренда, вместо этого все остальные переменные «распределены» по бренду, то есть: есть столбец с именем«DOVESales», где каждый элемент этого столбца - это объем продаж, который дезодорант Dove имел в данный конкретный момент времени.Есть еще один столбец под названием «DOVEPrice», где каждый элемент этого столбца является ценой дезодоранта Dove на этой неделе и т. Д.

Так что первые 13 столбцов первой строки в файле необработанных данных выглядят такэто: First observation, showing the first 13 columns

, тогда как первая строка в моем фрейме данных должна выглядеть так: enter image description here

Я пытался использовать тидирФункция collect () для преобразования широких данных в длинные и использует следующий код:

df <- df.raw %>% gather(Brand, Sales, 2:10) %>% 
                        gather(Brand, Price, 2:10) %>% 
                          gather(Brand, RPrice, 2:10) %>% 
                            gather(Brand, Display, 2:10) %>% 
                              gather(Brand, Feature, 2:10) %>%
                                gather(Brand, DisplayFeature, 2:10) %>%
   View()

Но тогда мой фрейм данных будет содержать более миллиарда строк, а файл слишком велик для открытия.Кто-нибудь знает, что было бы правильным способом привести в порядок такие данные?

...