В настоящее время я работаю над фиктивным анализом фиктивных данных микротранзакций MMORPG. Это пример нескольких строк файла CSV:
PID Username Age Gender ItemID Item Name Price
0 Jack78 20 Male 108 Spikelord 3.53
1 Aisovyak 40 Male 143 Blood Scimitar 1.56
2 Glue42 24 Male 92 Final Critic 4.88
Здесь все становится рискованно - я успешно использую функцию группировки, чтобы получить результат, когда покупки группируются по полу их покупателей.
test = purchase_data.groupby(['Gender', "Username"])["Price"].mean().reset_index()
возвращает результат (усечено для удобства чтения)
Gender Username Price
0 Female Adastirin33 $4.48
1 Female Aerithllora36 $4.32
2 Female Aethedru70 $3.54
...
29 Female Heudai45 $3.47
.. ... ... ...
546 Male Yadanu52 $2.38
547 Male Yadaphos40 $2.68
548 Male Yalae81 $3.34
То, к чему я сейчас стремлюсь, - это найти среднюю сумму денег, потраченную каждым полом в целом. Как я могу себе это представить, создав метод проверки мужского пола / женский / другой тег перед именем пользователя, а затем добавляет среднее значение, потраченное этим человеком, к промежуточной сумме, которой я потом смогу манипулировать. К сожалению, я очень плохо знаком с Python - понятия не имею, с чего начать, и даже если я на правильном пути.
Добавление: «Джезраэль» неправильно понял цель этого вопроса. В то время как он предоставил мне метод для очистки моих выходных рядов, он не дал мне метод или даже намек на мою основную цель, , которая заключается в объединении денег, потраченных по полу (женщины показаны во всем, кроме моего первого фрагмента, но ниже в файле csv есть мужчины, и я не хочу засорять страницу слишком большим количеством макарон) и помещать их в одну переменную.
Приложение 2: Другое решение, предложенное Jezrael,
purchase_data.groupby(['Gender'])["Price"].sum().reset_index()
создает
Gender Price
0 Female $361.94
1 Male $1,967.64
2 Other / Non-Disclosed $50.19
К сожалению, использование цифр из этой новой серии (которая даст среднюю цену за покупку, записанную в этом CSV) не совсем то, что я ищу, из-за того, что некоторые пользователи купили несколько элементов в файле , Я ищу решение, которое позволяет мне вывести из своего тестового фрейма среднюю сумму денег, потраченную на пользователя, разделенную и сгруппированную по полу.