Question

Новичок ie Оранжевый пользователь и студент, изучающий данные ...

Используя хорошо известный набор данных Iris, я создал 2 (оранжевых) «рабочих пространства», содержащих File Import -> Data Sampler (обучение 80%, 20% тест) -> Тест и оценка (Тест на данных теста). Затем я добавил knn, Random Forest и Log. Регрессия к каждому «рабочему пространству».

Единственным изменением были исходные данные. Я использовал предоставленный набор данных, в котором строки отсортированы по видам, в одном «рабочем пространстве». Для другого «рабочего пространства» я открыл предоставленный набор данных в Excel и приложил некоторые усилия для сортировки столбца видов, пока у меня не получилось хорошее сочетание. Я сделал это, потому что где-то читал, что перед тренировкой вашей модели рекомендуется смешивать данные ...

Результаты: точность модели в оранжевом «рабочем пространстве» равнялась 96,7% с использованием исходного набора данных. Точность модели упала до 93,3% для knn и log. рег. в то время как случайный лес составил 96,7% в «рабочем пространстве» с использованием отсортированного набора данных.

Как мне это объяснить? Является ли сортировка исходных данных перед импортом правильной?

Orange Data Mining: как объяснить различную точность модели

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Orange Data Mining: как объяснить различную точность модели

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы