Я использую наивный байесовский анализ для классификации текста, и у меня есть записи по 100 КБ, в которых 88 КБ являются положительными записями классов, а 12 КБ являются отрицательными записями классов.Я преобразовал предложения в униграммы и биграммы, используя countvectorizer, и взял альфа-диапазон от [0,10] с 50 значениями, и я рисую график.
При аддитивном сглаживании Лапласа, если я продолжу увеличивать альфа-значение, то также возрастает точность набора данных перекрестной проверки.Мой вопрос: эта тенденция ожидается или нет?