Деревья решений для классификации документов - PullRequest
1 голос
/ 25 июня 2010

Здравствуйте, я хотел знать, возможно ли использовать деревья решений для классификации документов, и если да, то каким должно быть представление данных?Я знаю использование пакета R party для деревьев решений.

Ответы [ 3 ]

2 голосов
/ 25 июня 2010

Один из способов - создать огромную матрицу, в которой каждая строка является документом, а каждый столбец - словом. И значения в ячейках - это количество раз, которое слово было показано в этом документе.

Тогда, если вы имеете дело со случаем «контролируемого обучения», у вас должен быть еще один столбец для классификатора, и с этого момента вы можете использовать команду типа «rpart» (из пакета rpart), чтобы создать дерево классификации. , Команда будет вводить формулу для rpart аналогично линейной модели (лм).

Если вы хотите, вы можете также попытаться сначала сгруппировать ваши слова в «группы слов», а затем иметь каждый столбец, принадлежащий к другой группе слов, с указанием числа, сколько слов в документе принадлежит этой группе , Для этого я бы посмотрел на пакет "тм". (Если вы в конечном итоге что-то делаете с этим, рассмотрите возможность публикации здесь, чтобы мы могли поучиться на этом)

Лучший, Tal

2 голосов
/ 30 июня 2010

В этой статье дается обзор различных методов категоризации текста и их точности.Короче говоря, вы можете классифицировать текст по деревьям решений, но есть и другие алгоритмы, которые намного лучше.

Себастиани, Ф. (2002).Машинное обучение в автоматизированной текстовой категоризации.ACM Computing Surveys, cs.IR/0110053v1.Доступно с: http://arxiv.org/abs/cs.IR/0110053v1.

0 голосов
/ 25 июня 2010

Я сомневаюсь в этом - по крайней мере, как обычно определено, дерево решений использует один критерий для определения подветвления.При классификации документов вы редко можете основывать большую часть чего-либо на одном критерии - вам нужно несколько критериев, и даже тогда вы не получите четкого древовидного решения, но «это немного ближе к этому, чемдругая вещь "вид результата.

...