Orange Data Mining: как объяснить различную точность модели - PullRequest
0 голосов
/ 24 марта 2020

Новичок ie Оранжевый пользователь и студент, изучающий данные ...

Используя хорошо известный набор данных Iris, я создал 2 (оранжевых) «рабочих пространства», содержащих File Import -> Data Sampler (обучение 80%, 20% тест) -> Тест и оценка (Тест на данных теста). Затем я добавил knn, Random Forest и Log. Регрессия к каждому «рабочему пространству».

Единственным изменением были исходные данные. Я использовал предоставленный набор данных, в котором строки отсортированы по видам, в одном «рабочем пространстве». Для другого «рабочего пространства» я открыл предоставленный набор данных в Excel и приложил некоторые усилия для сортировки столбца видов, пока у меня не получилось хорошее сочетание. Я сделал это, потому что где-то читал, что перед тренировкой вашей модели рекомендуется смешивать данные ...

Результаты: точность модели в оранжевом «рабочем пространстве» равнялась 96,7% с использованием исходного набора данных. Точность модели упала до 93,3% для knn и log. рег. в то время как случайный лес составил 96,7% в «рабочем пространстве» с использованием отсортированного набора данных.

Как мне это объяснить? Является ли сортировка исходных данных перед импортом правильной?

...