Я делаю задачу машинного обучения текстовой категоризации с использованием Наивного Байеса. У меня есть каждое слово как особенность. Мне удалось это реализовать, и я получаю хорошую точность.
Могу ли я использовать наборы слов в качестве функций?
Например, если есть два класса: политика и спорт. Слово под названием правительство может появиться в обоих из них. Однако в политике у меня может быть кортеж (правительство, демократия), тогда как в классе спорта у меня может быть кортеж (правительство, спортсмен). Таким образом, если появляется новая текстовая статья о политике, вероятность кортежа (правительство, демократия) больше, чем кортежа (правительство, спортсмен).
Я спрашиваю это потому, что, делая это, я нарушаю допущение независимости наивной байесовской проблемы, потому что я рассматриваю отдельные слова как особенности.
Кроме того, я думаю о добавлении весов к функциям. Например, функция с тремя кортежами будет иметь меньший вес, чем функция с четырьмя кортежами.
Теоретически, не изменяют ли эти два подхода допущения о независимости классификатора Наивного Байеса? Кроме того, я еще не начал с подхода, о котором упоминал, но улучшит ли это точность? Я думаю, что точность может не улучшиться, но объем обучающих данных, необходимых для получения такой же точности, будет меньше.