Что будет правильным соединением для использования в наборе данных? - PullRequest
0 голосов
/ 04 июня 2018

У меня есть два набора данных: первый набор данных

     Date      Revenue  Country  Platform   Application
    2018-05-18   200       US     Google      XYZ
    2018-05-18   100       US      IOS        XYZ
    2018-05-18   200       AU     Google      XYZ
    2018-05-18   100       US     Amazon      XYZ

второй набор данных

  Date      Platform  Application  Country  ConversionRate
2018-05-18   Google       XYZ        US         0.56
2018-05-18   Amazon       XYZ        US         0.75
2018-05-18   Samsung      XYZ        US         0.26
2018-05-18     IOS        XYZ        US         0.45

Я пытаюсь найти подходящее соединение для данных.Основные данные взяты из первого набора данных.Мне нужен коэффициент конверсии из второго набора данных со всеми данными из первого, и значение должно быть объединено на основе даты, а также приложения, платформы и страны.Я пробовал внутреннее соединение и левое соединение, но вывод не кажется правильным.Любая помощь приветствуется.

Вывод, который я получаю:

  Date      Revenue   Country   Platform  Application ConversionRate
2018-05-18    200        US      Google      XYZ           0.56
2018-05-18    200        US      Google      XYZ           0
2018-05-18    200        US      Google      XYZ           0
2018-05-18    200        US      Google      XYZ           0

коэффициент конверсии должен быть одинаковым для определенного приложения (страны, платформы и т. Д.) В определенный день.Даже если Google Platform присутствует несколько раз, коэффициент конверсии должен повторяться это число раз.

1 Ответ

0 голосов
/ 04 июня 2018

Разобрался с проблемой.Так же, как мы можем добавлять и обрабатывать в SQL, мы можем делать это в Google DataPrep.Это была проблема, с которой я столкнулся.Просто добавили несколько столбцов для проверки во время операции соединения, и это, похоже, решило проблему.

...