Я работаю над задачей классификации текста с пулом, содержащим 4 класса и 1900 экземпляров для каждого класса. Когда я выполняю 5-кратную перекрестную проверку или 80/20 разделение поезд / тест, точность составляет 86%. Я пытаюсь увидеть влияние размера тренировочного набора на точность. Поэтому я оставляю 1520 экземпляров (20% экземпляров) в качестве тестового набора и 760 экземпляров (10%) в качестве обучающего набора, и в каждой итерации я добавляю еще 760 экземпляров в обучающий набор. Действительно странно, что точность снижается за счет увеличения количества экземпляров в тренировочном размере. Не могли бы вы помочь мне с этой проблемой?
Полиномиальный NB 0 Размер X_train (760, 4878) Размер X_test (1520, 4878) Точность [0,7835526315789474]
Размер полиномиального NB 1 X_train (1520, 7145) X_test размер (1520, 7145) Точность [0,7835526315789474, 0,8302631578947368]
размер полиномиальной NB 2 X_train (2280, 8916) X_test размер (1520, 8916) Точность [0,7835526315789474, +0,8302631578947368, 0,8203947368421053]
Полиномиальный NB 3 X_train размер (3040, 10389) X_test размер (1520, 10389) Точность [0,7835526315789474, 0,8302631578947368, 0,8203947368421053, 0,8026315789473685]
1001, 153 размера (15 мкс), размер: 150 (мс), размер: 1500 (мс), размер: 150, макс. 11663) Точность [0,7835526315789474, +0,8302631578947368, +0,8203947368421053, +0,8026315789473685, 0,7901315789473684]
размер полиномиальной NB 5 X_train (4560, 12788) X_test размер (1520, 12788) Точность [0,7835526315789474, +0,8302631578947368, +0,8203947368421053, +0,8026315789473685, +0,7901315789473684, 0,769078947 3684211]
размер полиномиальной NB 6 X_train (5320, 13770) X_test размер (1520, 13770) Точность [0,7835526315789474, +0,8302631578947368, +0,8203947368421053, +0,8026315789473685, +0,7901315789473684, +0,7690789473684211, 0,7671052631578947]