Я работаю с наивным байесовским классификатором над PHP (http://www.xhtml.net/php/PHPNaiveBayesianFilter)
И есть список слов, которые можно игнорировать при обучении системы. Эти слова не сохраняются в базе данных и поэтому не используются для классификации.
Я хотел бы как можно лучше улучшить систему, поэтому мне было интересно, есть ли какое-либо правило или список типичных слов, которые следует игнорировать для систем такого типа.
В настоящее время я игнорирую такие слова, как "to", "and", "the", "for", "Since", "which", "what", "who" ... и некоторые типичные глаголы, такие как "быть", "было", "было", "было" ... и т. д.
Любая рекомендация?
Спасибо.