наборы данных перекрестного соединения с правильной агрегацией цен + реляционные столбцы для запятой, разделенной - PullRequest
1 голос
/ 03 апреля 2020

У меня есть 2 набора данных в R. Первый - это дамп из Google Analytics с данными просмотров страниц / сессий / пользователей, а второй - экспорт метаданных cms с идентификаторами статей, именами авторов, датой публикации и т. Д. c и затратами на статью.

Первый выглядит примерно так

Summarize numeric variables:
                      n_obs n_missing n_distinct          mean median   min                max   p25    p75              sd            se
            sessions 10,000         0        151     7,433.648  1.000 0.000     74,116,646.000 1.000  1.000     741,166.356     7,411.664
           pageviews 10,000         0        198    11,409.880  1.000 0.000    113,787,288.000 1.000  2.000   1,137,872.716    11,378.727
               users 10,000         0        179     9,579.513  1.000 1.000     95,541,309.000 1.000  1.000     955,412.937     9,554.129
             bounces 10,000         0         85     4,404.562  0.000 0.000     43,970,642.000 0.000  0.000     439,706.387     4,397.064
           entrances 10,000         0        151     7,418.493  1.000 0.000     73,966,090.000 1.000  1.000     739,660.797     7,396.608
 pageviewsPerSession 10,000         0        357         1.207  1.000 0.000            102.000 1.000  1.000           1.920         0.019
     sessionDuration 10,000         0      1,282 1,052,179.991  8.000 0.000 10,500,469,474.000 1.000 40.000 105,004,691.642 1,050,046.916

Earliest dates:
 date
 <NA>

Final dates:
 date
 <NA>

Summarize character variables (< 20 unique values shown):
pagePath (n_distinct 10000):  (other) / /?/= /?a= /?co= /?fbclid=IwAR0a9JQDUbU4iViMvLBpCsreeox2l1tCW3pO3fVSfaa1Fq3e_5PkQz77yFs 

Второй выглядит так

Summarize numeric variables:
                 n_obs n_missing n_distinct        mean     median        min         max        p25         p75         sd      se
     ArticleID 115,383         0    115,383 104,641.445 91,149.000 31,224.000 190,569.000 60,119.500 160,555.500 51,530.762 151.704
 CommentsCount 115,383         0        441       5.663      0.000      0.000   1,108.000      0.000       1.000     27.952   0.082
          Cost 115,383         0        165                  0.000      0.000                  0.000       0.000   

Earliest dates:
 PublishedDate
          <NA>

Final dates:
 PublishedDate
          <NA>

Summarize character variables (< 20 values shown):
URL : 
Title :
Origin : 
Author : 
Category : 
Tags : 

После очистки пути к странице и нормализации URL я хочу объединить оба с внутреннее объединение, чтобы остались только данные по статьям. Однако я пытаюсь найти правильный способ агрегирования данных о расходах, чтобы значения столбцов не суммировались каждый раз, когда есть новая дата и просмотр страницы для определенной страницы

Второе - создать что-то из реляционной базы данных. для каждого тега, перечисленного в виде строки, разделенной запятыми, для каждой статьи - другими словами, чтобы сделать каждый тег отдельным измерением

...