Один из способов - создать огромную матрицу, в которой каждая строка является документом, а каждый столбец - словом. И значения в ячейках - это количество раз, которое слово было показано в этом документе.
Тогда, если вы имеете дело со случаем «контролируемого обучения», у вас должен быть еще один столбец для классификатора, и с этого момента вы можете использовать команду типа «rpart» (из пакета rpart), чтобы создать дерево классификации. , Команда будет вводить формулу для rpart аналогично линейной модели (лм).
Если вы хотите, вы можете также попытаться сначала сгруппировать ваши слова в «группы слов», а затем иметь каждый столбец, принадлежащий к другой группе слов, с указанием числа, сколько слов в документе принадлежит этой группе , Для этого я бы посмотрел на пакет "тм". (Если вы в конечном итоге что-то делаете с этим, рассмотрите возможность публикации здесь, чтобы мы могли поучиться на этом)
Лучший,
Tal