В настоящее время я работаю над наивным байесовским учебным проектом. Мой набор данных содержит различные типы типов данных. Есть некоторые шаги, которые я сделал, и я хотел бы знать, если это хорошо или я могу сделать лучше. В настоящее время я использую bank.data от представителя машинного обучения (https://archive.ics.uci.edu/ml/datasets/Bank+Marketing)
Мои знания наивного байеса в том, что он принимает только цифры c типы данных.
1) Я преобразовал свои типы данных «да / нет» в 0 и 1. 2) Я использовал одно горячее кодирование для своих категориальных атрибутов. 3) У меня есть несколько числовых c типов данных, теперь я не уверен, должен ли я их обрабатывать, в том смысле, должен ли я это делать или я должен построить свою модель классификатора?
Также есть ли простой способ предварительной обработки моего набора данных с использованием Python и pandas?