У меня есть набор данных sms-spam-ham.После подсчета оказалось, что 4 значения были потеряны.Длина столбца составляет 5565, из которых 746 строк - «спам», а 4819 - «ветчина». Но я получаю 4815 «ветчина», потому что в некоторых строках есть опечатка, а вместо «ветчина» написано'ham "" "'. Существует ли общий способ решения проблемы такого типа? (Полагаю, она существует.) Спасибо.
print('Number of spam meassages:', df[df['v1'] == 'spam']['v1'].count())
print('Number of spam meassages:', df[df['v1'] == 'ham']['v1'].count())
Number of spam meassages: 746
Number of spam meassages: 4815
len(df['v1'])
5565