Какова функция 'top' в описании (include = 'all') в python? - PullRequest
0 голосов
/ 26 февраля 2019
import pandas as pd
import numpy as np
#Create a Dictionary of series
d = 
{'Name':pd.Series(['Tom','James','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),   
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,
2.98,4.80,4.10, 
3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print(df.describe(include='all'))

Если запустить этот код, я получил следующий вывод:

      Name        Age     Rating

 count       12  12.000000  12.000000
 unique      12        NaN        NaN
 top     Betina        NaN        NaN
 freq         1        NaN        NaN
 mean       NaN  31.833333   3.743333
 std        NaN   9.232682   0.661628
 min        NaN  23.000000   2.560000
 25%        NaN  25.000000   3.230000
 50%        NaN  29.500000   3.790000
 75%        NaN  35.500000   4.132500
 max        NaN  51.000000   4.800000

Когда я запускаю код каждый раз, когда меняется верхняя функция.Какова цель функции top в выводе и как она будет работать?

1 Ответ

0 голосов
/ 26 февраля 2019

какова цель функции top в выводе и как она будет работать?

Если вы выполните:

df.Name.value_counts()

Вы увидите значение человека в столбце Name и его количество.top дает наибольшее подсчитанное значение категориальных значений.

Пример:

d ={'Name':pd.Series(['Tom','Steve','Ricky','Vin','Steve','Smith','Jack',
'Lee','David','Gasper','Betina','Andres']),
'Age':pd.Series([25,26,25,23,30,29,23,34,40,30,51,46]),   
'Rating':pd.Series([4.23,3.24,3.98,2.56,3.20,4.6,3.8,3.78,
2.98,4.80,4.10, 
3.65])
}
#Create a DataFrame
df = pd.DataFrame(d)
print(df.describe(include='all'))

        Name        Age     Rating
count      12  12.000000  12.000000
unique     11        NaN        NaN
top     Steve        NaN        NaN
freq        2        NaN        NaN
mean      NaN  31.833333   3.743333
std       NaN   9.232682   0.661628
min       NaN  23.000000   2.560000
25%       NaN  25.000000   3.230000
50%       NaN  29.500000   3.790000
75%       NaN  35.500000   4.132500
max       NaN  51.000000   4.800000

print(df.Name.value_counts())

Steve     2
Ricky     1
Tom       1
Andres    1
Jack      1
Smith     1
Lee       1
Betina    1
Vin       1
Gasper    1
David     1

Так как Name значение для Steve самое высокое, оно идет сверху.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...