У меня есть набор данных, состоящий из 3 столбцов (почтовый индекс, район и район), настроенный следующим образом:
df = pd.DataFrame({'Postcode' : ['M1', 'M2', 'M3', 'M4', 'M5'],
'Borough' : ['Ottawa', 'Not assigned', 'Montreal', 'Toronto', 'Kent'],
'Neighbourhood' : ['Ottawa', 'Toronto', 'Montreal', 'Barrhaven', 'Not assigned']})
, который выглядит следующим образом:
Значения в столбцах Район и Соседство могут быть либо «Не назначено», либо допустимым текстом - значение «Не назначено» может быть в обеих ячейках или в одной или прочее.
То, что я хочу сделать, - это удалить строки во всем наборе данных, для которых в каждом из столбцов указано «Не назначено».
Я очень новичок в Python ... Я думал, что попытаюсь создать дополнительный столбец на основе значения одной из ячеек, давая True или False, поэтому я попробовал это ...
df['Outcome'] = ["True" if x =='Not assigned' else "False" for x in df['Borough']]
... который успешно добавил дополнительный столбец
Тогда я бы попробовал удалить эти ИСТИННЫЕ строки с помощью функции drop () и Повторите процесс в столбце Соседство. Но это кажется грязным способом сделать это, и я в итоге получу 20 строк кода, где я уверен, что это можно сделать гораздо эффективнее.
Может кто-нибудь посоветуете, пожалуйста, самый простой способ избавиться от этих строк?