Обучение ваших данных наивному байесовскому классификатору заставит модель назначить вероятность для каждого слова для каждого отдельного класса, который вы пытаетесь классифицировать. В вашем случае, поскольку это анализ настроений, если у вас есть два положительных и отрицательных класса, у вас будет вероятность, что setan будет положительным и отрицательным.
Имея это в виду, если слово имеет несколько значений, которые могут объяснить как положительные, так и отрицательные чувства, я бы сказал, что обязательно включите оба типа случаев в ваши данные, чтобы при обучении модели использовались соответствующие вероятности классифицировать новый текст в положительный или отрицательный класс.
В вашем случае кажется, что оба значения setan имеют отрицательную коннотацию, которая на самом деле не должна быть проблемой. Такие слова, как «the», «a», которые присутствуют как в положительных, так и в отрицательных случаях, которые, как известно, называются стоп-словами, должны быть удалены, поскольку они не учитываются при классификации.
В вашем случае, если вы пытаетесь обучить модель, используя их конкретные значения, вы можете обратиться к этому документу https://pdfs.semanticscholar.org/fc01/b42df3077a512620456d8a2714951eccbd67.pdf.