В настоящее время я работаю с аналитическими данными, которые содержат целевую страницу пользователей, и я уже сделал данные в скобках пола и возраста удобными для машинного обучения с помощью следующего метода:
age = dataset.pop('ga:userAgeBracket')
gender = dataset.pop('ga:userGender')
dataset['18-24'] = (age == '18-24') * 1.0
dataset['25-34'] = (age == '25-34') * 1.0
dataset['35-44'] = (age == '35-44') * 1.0
dataset['45-54'] = (age == '45-54') * 1.0
dataset['55-64'] = (age == '55-64') * 1.0
dataset['65+'] = (age == '65+') * 1.0
dataset['Male'] = (gender == 'male') * 1.0
dataset['Female'] = (gender == 'female') * 1.0
Этот метод работает отличнодля данных, которые имеют только несколько различных вариантов.
Однако ga: landingPagePath потенциально может иметь бесконечное количество точек данных, и мне было интересно, есть ли простой способ пройти через это и создать такую же структуру столбцовкак и в случае с другими точками данных
Просто для справки. Вот так выглядит набор данных после очистки столбца пола и возраста:
Числоуникальных URL для этого конкретного набора данных с установленным мной фильтром REGEX составляет около 70 +