Я хотел бы изучить, как будет работать байесовская сеть, если я буду манипулировать только размером набора данных.
Поскольку я все еще думаю о генераторе данных (не могу найти подходящую статью), я решил просто умножить данныеиметь.Я подумал, что если я только дублирую его, это не изменит результаты классификации - просто время создания модели.
Хорошо, я провел тесты на 2 наборах данных:
data1: 70 экземпляров, 8 атрибутов, да / нет классификации
data2: 768 экземпляров, 206 атрибутов, 1-6 классификация типов
Результаты вычисления времени на исходных наборах находятся в диапазоне 0-0,01 с, поэтому яне могу получить много от этого.Интересные числа появляются после того, как я умножил данные.
Метод тестирования был перекрестной проверки в 10 раз.Все сделано в Weka.
.
Формат:
Number_of_instances: model_creation_time:% Correctly_Clasified_instances
Data1, Наивный Байес:
768: 0 с: 76,30%
7680: 0,01 с: 76,2891%
76800: 0,11 с: 76,2708%
768000: 1,39 с: 76,30%
Данные1, Нормальный Байес:
768: 0,02 с: 74,349%
7680: 0,08 с: 85,7943%
76800: 1,43 с: 97,8659%
768000: 26,18 с: 97,824%
Данные2, Наивный Байес:
70: 0s: 82,8571%
700: 0 с: 92%
7000: 0,02 с: 94,2857%
70000: 0,21 с: 94,2857%
Data2, нормальный байес:
70: 0,01с: 82,8571%
700: 0,01 с: 93,2857%
7000: 0,11 с: 94,2857%
70000: 2,63 с: 94,2857%
Время вычислений во всех случаях увеличилось (обычные байесы заняли больше времени - но в data2 с большим количеством атрибутов оно увеличиваетсянамного медленнее).
Правильно классифицированные экземпляры сильно повышаются только в обычных байтах в data1 (8 атрибутов).
В то время как в data2 (206 атрибутов) классификация значительно улучшилась в обоих методах.
Как дублирование данных помогло в классификации?Я сделал что-то не так или это какие-то фальшивые результаты?Это можно объяснить?