Пытаясь отформатировать данные Google Analytics, готовые для машинного обучения, нужна помощь в циклическом просмотре списка значений и создании одинакового количества столбцов - PullRequest
0 голосов
/ 26 марта 2019

В настоящее время я работаю с аналитическими данными, которые содержат целевую страницу пользователей, и я уже сделал данные в скобках пола и возраста удобными для машинного обучения с помощью следующего метода:

age = dataset.pop('ga:userAgeBracket')
gender = dataset.pop('ga:userGender')
dataset['18-24'] = (age == '18-24') * 1.0
dataset['25-34'] = (age == '25-34') * 1.0
dataset['35-44'] = (age == '35-44') * 1.0
dataset['45-54'] = (age == '45-54') * 1.0
dataset['55-64'] = (age == '55-64') * 1.0
dataset['65+'] = (age == '65+') * 1.0
dataset['Male'] = (gender == 'male') * 1.0
dataset['Female'] = (gender == 'female') * 1.0

Этот метод работает отличнодля данных, которые имеют только несколько различных вариантов.

Однако ga: landingPagePath потенциально может иметь бесконечное количество точек данных, и мне было интересно, есть ли простой способ пройти через это и создать такую ​​же структуру столбцовкак и в случае с другими точками данных

Просто для справки. Вот так выглядит набор данных после очистки столбца пола и возраста: enter image description here

Числоуникальных URL для этого конкретного набора данных с установленным мной фильтром REGEX составляет около 70 +

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...