Панда SQL в Python для анализа большого набора данных - PullRequest
0 голосов
/ 07 января 2020

У меня есть фрейм данных panda, который содержит следующую структуру:

UserID EmailOpenRank
User1 1
User1 2
User1 3
User2 1
User2 2 *
Пользователь3 1
Пользователь3 2
Пользователь3 4
Пользователь3 5
… ..… ....


Поле 'EmailOpenRank' захватывает последовательное событие (DF ). Если число появляется в последовательности, это означает (1,2, 3), что много раз электронное письмо открывается пользователем последовательно. Я привел пример в описании. Вопрос из 10 миллионов пользователей, какой будет соответствующий запрос SQL (Panda sql), чтобы я мог сказать, что 9 миллионов человек открыли 3 последовательных письма, а 1 миллион человек открыли 4 последовательных письма.

Используя panda sql, я хочу выяснить общее количество пользователей, которые открыли 2 последовательных электронных письма, 3 последовательных электронных письма, 4 последовательных электронных письма и т. Д. c. Из столбца «EmailOpenRank». Например, Пользователь1 открыл 3 последовательных электронных письма на основе ранга, Пользователь2 открыл 2 последовательных электронных письма, Пользователь3 открыл 4 последовательных электронных письма.

Как мне начать с этого?

...