Новичок ie Оранжевый пользователь и студент, изучающий данные ...
Используя хорошо известный набор данных Iris, я создал 2 (оранжевых) «рабочих пространства», содержащих File Import -> Data Sampler (обучение 80%, 20% тест) -> Тест и оценка (Тест на данных теста). Затем я добавил knn, Random Forest и Log. Регрессия к каждому «рабочему пространству».
Единственным изменением были исходные данные. Я использовал предоставленный набор данных, в котором строки отсортированы по видам, в одном «рабочем пространстве». Для другого «рабочего пространства» я открыл предоставленный набор данных в Excel и приложил некоторые усилия для сортировки столбца видов, пока у меня не получилось хорошее сочетание. Я сделал это, потому что где-то читал, что перед тренировкой вашей модели рекомендуется смешивать данные ...
Результаты: точность модели в оранжевом «рабочем пространстве» равнялась 96,7% с использованием исходного набора данных. Точность модели упала до 93,3% для knn и log. рег. в то время как случайный лес составил 96,7% в «рабочем пространстве» с использованием отсортированного набора данных.
Как мне это объяснить? Является ли сортировка исходных данных перед импортом правильной?