У меня есть 2 набора данных в R. Первый - это дамп из Google Analytics с данными просмотров страниц / сессий / пользователей, а второй - экспорт метаданных cms с идентификаторами статей, именами авторов, датой публикации и т. Д. c и затратами на статью.
Первый выглядит примерно так
Summarize numeric variables:
n_obs n_missing n_distinct mean median min max p25 p75 sd se
sessions 10,000 0 151 7,433.648 1.000 0.000 74,116,646.000 1.000 1.000 741,166.356 7,411.664
pageviews 10,000 0 198 11,409.880 1.000 0.000 113,787,288.000 1.000 2.000 1,137,872.716 11,378.727
users 10,000 0 179 9,579.513 1.000 1.000 95,541,309.000 1.000 1.000 955,412.937 9,554.129
bounces 10,000 0 85 4,404.562 0.000 0.000 43,970,642.000 0.000 0.000 439,706.387 4,397.064
entrances 10,000 0 151 7,418.493 1.000 0.000 73,966,090.000 1.000 1.000 739,660.797 7,396.608
pageviewsPerSession 10,000 0 357 1.207 1.000 0.000 102.000 1.000 1.000 1.920 0.019
sessionDuration 10,000 0 1,282 1,052,179.991 8.000 0.000 10,500,469,474.000 1.000 40.000 105,004,691.642 1,050,046.916
Earliest dates:
date
<NA>
Final dates:
date
<NA>
Summarize character variables (< 20 unique values shown):
pagePath (n_distinct 10000): (other) / /?/= /?a= /?co= /?fbclid=IwAR0a9JQDUbU4iViMvLBpCsreeox2l1tCW3pO3fVSfaa1Fq3e_5PkQz77yFs
Второй выглядит так
Summarize numeric variables:
n_obs n_missing n_distinct mean median min max p25 p75 sd se
ArticleID 115,383 0 115,383 104,641.445 91,149.000 31,224.000 190,569.000 60,119.500 160,555.500 51,530.762 151.704
CommentsCount 115,383 0 441 5.663 0.000 0.000 1,108.000 0.000 1.000 27.952 0.082
Cost 115,383 0 165 0.000 0.000 0.000 0.000
Earliest dates:
PublishedDate
<NA>
Final dates:
PublishedDate
<NA>
Summarize character variables (< 20 values shown):
URL :
Title :
Origin :
Author :
Category :
Tags :
После очистки пути к странице и нормализации URL я хочу объединить оба с внутреннее объединение, чтобы остались только данные по статьям. Однако я пытаюсь найти правильный способ агрегирования данных о расходах, чтобы значения столбцов не суммировались каждый раз, когда есть новая дата и просмотр страницы для определенной страницы
Второе - создать что-то из реляционной базы данных. для каждого тега, перечисленного в виде строки, разделенной запятыми, для каждой статьи - другими словами, чтобы сделать каждый тег отдельным измерением