Я студент колледжа, который недавно начал заниматься анализом данных.
Прямо сейчас я работаю с набором данных с процентами каждой расовой группы: белые, черные, азиатские, индейские и испанские c.
В некоторых из этих столбцов есть Значения NaN (для всех столбцов), поэтому я использовал 100 - (сумма (другие проценты)) или в python:
def white_rate(lst):
for i in range(len(lst)):
if lst[i] is None:
lst[i] = 100 - (ca_data.share_black[i]+ca_data.share_native_american[i]+
ca_data.share_asian[i]+ca_data.share_hispanic[i])
, где ca_data - это набор данных, а share _... - имя каждого столбец.
Когда я это сделал, я увидел, что сумма процентов превышает 100% (чего я вроде и ожидал)
Что было бы лучше, чтобы учесть это в значениях NaN? кейс?
Также, можно ли написать one def () , чтобы вычислить значения Nan для ВСЕХ расовых групп? (например, def calculate_percentage_makeup будет иметь список чисел в качестве параметра и проверять, имеют ли какие-либо элементы в списке значение Nan; если да, он выполнит некоторую арифметику c, чтобы получить процент)