Как бороться со значениями NaN в данных в Python? - PullRequest
1 голос
/ 09 ноября 2019

У меня большой набор данных, содержащий много значений NaN в нескольких столбцах.

Я пробовал следующий код, но он не сбрасывает значение Nan из набора данных

df = pd.read_excel('sec3_data.xlsx')
df.dropna(subset=["Deviation from Partisanship"])
df['Deviation from Partisanship'].unique()

Вывод:

array([nan, 'Vote for opposing party', 'Vote for own party'], dtype=object)

Это ясно показывает, что все еще есть некоторые доступные значения nan. Как я могу их удалить?

Ответы [ 3 ]

2 голосов
/ 09 ноября 2019

Вам необходимо либо переназначить новый фрейм данных:

df2 = df.dropna(subset=["Deviation from Partisanship"])

, либо выполнить сброс inplace:

df.dropna(subset=["Deviation from Partisanship"], inplace=True)

Более подробную информацию можно найти в документации здесь: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

1 голос
/ 09 ноября 2019

Вам нужно записать это как

1002

или

1005 *
0 голосов
/ 09 ноября 2019
# Method 1
df = pd.read_excel('sec3_data.xlsx')
df.dropna(subset=["Deviation from Partisanship"], inplace=True)
df['Deviation from Partisanship'].unique()

# Method 2
df = pd.read_excel('sec3_data.xlsx')
df2 = df.dropna(subset=["Deviation from Partisanship"])
df2['Deviation from Partisanship'].unique()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...