Нормальный и наивный байесовский - дублирование данных, улучшение классификации [Weka] - PullRequest
0 голосов
/ 03 декабря 2018

Я хотел бы изучить, как будет работать байесовская сеть, если я буду манипулировать только размером набора данных.

Поскольку я все еще думаю о генераторе данных (не могу найти подходящую статью), я решил просто умножить данныеиметь.Я подумал, что если я только дублирую его, это не изменит результаты классификации - просто время создания модели.

Хорошо, я провел тесты на 2 наборах данных:

data1: 70 экземпляров, 8 атрибутов, да / нет классификации

data2: 768 экземпляров, 206 атрибутов, 1-6 классификация типов

Результаты вычисления времени на исходных наборах находятся в диапазоне 0-0,01 с, поэтому яне могу получить много от этого.Интересные числа появляются после того, как я умножил данные.

Метод тестирования был перекрестной проверки в 10 раз.Все сделано в Weka.

.

Формат:

Number_of_instances: model_creation_time:% Correctly_Clasified_instances


Data1, Наивный Байес:

768: 0 с: 76,30%

7680: 0,01 с: 76,2891%

76800: 0,11 с: 76,2708%

768000: 1,39 с: 76,30%


Данные1, Нормальный Байес:

768: 0,02 с: 74,349%

7680: 0,08 с: 85,7943%

76800: 1,43 с: 97,8659%

768000: 26,18 с: 97,824%


Данные2, Наивный Байес:

70: 0s: 82,8571%

700: 0 с: 92%

7000: 0,02 с: 94,2857%

70000: 0,21 с: 94,2857%


Data2, нормальный байес:

70: 0,01с: 82,8571%

700: 0,01 с: 93,2857%

7000: 0,11 с: 94,2857%

70000: 2,63 с: 94,2857%


Время вычислений во всех случаях увеличилось (обычные байесы заняли больше времени - но в data2 с большим количеством атрибутов оно увеличиваетсянамного медленнее).

Правильно классифицированные экземпляры сильно повышаются только в обычных байтах в data1 (8 атрибутов).

В то время как в data2 (206 атрибутов) классификация значительно улучшилась в обоих методах.

Как дублирование данных помогло в классификации?Я сделал что-то не так или это какие-то фальшивые результаты?Это можно объяснить?

1 Ответ

0 голосов
/ 04 декабря 2018

конечно точность увеличивается, если образцы дублируются.думаю об этом.у вас больше одних и тех же данных, поэтому классификатор тренируется с ними усерднее

, если вы хотите проверить различное количество образцов, вы должны удалить образцы, а не добавлять их

надеюсь, что мне помогли

добрый день

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...