У меня есть обзорный набор данных mov ie, и я хочу выполнить анализ настроений на нем.
Я реализовал это с помощью регрессии logisti c. Ниже приведены шаги, которые я предпринял в процессе:
- Удалены стоп-слова и знаки препинания из каждой строки в наборе данных.
- Разделение данных на поезд, проверку и набор тестов.
- Создан словарь слов из учебного комплекта.
- Добавлено каждое слово в словарь в качестве функции. Если это слово находится в текущей строке, его значение TF-IDF устанавливается в качестве значения функции, в противном случае в качестве значения устанавливается 0.
- Обучить модель. Во время обучения сигмовидная функция используется для вычисления гипотезы, а перекрестная энтропийная потеря - для функции стоимости. Затем с использованием градиентного спуска были обновлены веса модели.
- Настройка гиперпараметров с использованием набора проверки
- Оценка модели с использованием набора испытаний
Теперь мне нужно реализовать То же самое, используя Наивного Байеса, и я запутался в том, как подойти к этой проблеме. Я предполагаю, что первые 4 шага будут одинаковыми. Но каков этап обучения при использовании Наивного Байеса? Что такое функция потерь и функция затрат в этом случае? И где я могу использовать теорему Байеса для вычисления условной вероятности? И как мне обновить весовые коэффициенты и отклонения?
Я искал много ресурсов в Интернете и в основном нашел только реализации, использующие sklearn с model.fit и model.predict, и у меня трудно понять математику и то, как это можно реализовать с помощью vanilla python.