В категоризации текста люди склонны строить гистограммы слов, используемых в домене, иногда они смотрят на комбинации двух слов и помещают это в свою гистограмму (это называется биграммами). Но это действительно зависит от ваших данных и ваших целей.