Преобразование типа данных объекта в тип данных с плавающей запятой в pandas значениях NaN результатов - PullRequest
0 голосов
/ 19 февраля 2020

Я делаю классификацию набора данных Ecoli как назначение. Набор данных собирается из хранилища UCI. Чтобы создать классификатор дерева решений, мне нужно преобразовать типы данных объекта в float. В то время как преобразование типов данных изменяется на float, но строка в столбце меняет все на «NaN», так что я не смог использовать этот столбец в функции fit ()

data_file = pd.read_csv('/home/root-user/Documents/ecoli.csv')
df1 = pd.DataFrame(data_file)
df1_cleaned = df1.drop('SEQUENCE_NAME',axis=1)
df1_cleaned['PROTEIN_SEQUENCE'] = pd.to_numeric(df1_cleaned['PROTEIN_SEQUENCE'], errors='coerce')
cleaned_list = df1_cleaned.values.tolist()
print(df1_cleaned) 

Тогда вывод будет таким

набор данных после преобразования объекта типа d в ​​float

1 Ответ

0 голосов
/ 19 февраля 2020

pd.to_numeri c пытается преобразовать последовательность в цифру c и принудительно, когда ей это сказано.

  • errors = 'coerce' преобразует все, что может до float и всего, что он не может NaN s
  • Если вы хотите сохранить для отладки все, что он не смог преобразовать в float, в исходном виде, выполните errors = 'ignore'

Кроме того, не могли бы вы опубликовать исходные данные в столбце PROTEIN_SEQUENCE? Возможно, было бы полезно немного очистить его перед преобразованием.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...