Question

Здравствуйте, я хотел знать, возможно ли использовать деревья решений для классификации документов, и если да, то каким должно быть представление данных?Я знаю использование пакета R party для деревьев решений.

Tal Galili · Answer 1 · 25 июня 2010

Один из способов - создать огромную матрицу, в которой каждая строка является документом, а каждый столбец - словом. И значения в ячейках - это количество раз, которое слово было показано в этом документе.

Тогда, если вы имеете дело со случаем «контролируемого обучения», у вас должен быть еще один столбец для классификатора, и с этого момента вы можете использовать команду типа «rpart» (из пакета rpart), чтобы создать дерево классификации. , Команда будет вводить формулу для rpart аналогично линейной модели (лм).

Если вы хотите, вы можете также попытаться сначала сгруппировать ваши слова в «группы слов», а затем иметь каждый столбец, принадлежащий к другой группе слов, с указанием числа, сколько слов в документе принадлежит этой группе , Для этого я бы посмотрел на пакет "тм". (Если вы в конечном итоге что-то делаете с этим, рассмотрите возможность публикации здесь, чтобы мы могли поучиться на этом)

Лучший, Tal

Ken Bloom · Answer 2 · 30 июня 2010

В этой статье дается обзор различных методов категоризации текста и их точности.Короче говоря, вы можете классифицировать текст по деревьям решений, но есть и другие алгоритмы, которые намного лучше.

Себастиани, Ф. (2002).Машинное обучение в автоматизированной текстовой категоризации.ACM Computing Surveys, cs.IR/0110053v1.Доступно с: http://arxiv.org/abs/cs.IR/0110053v1.

Jerry Coffin · Answer 3 · 25 июня 2010

Я сомневаюсь в этом - по крайней мере, как обычно определено, дерево решений использует один критерий для определения подветвления.При классификации документов вы редко можете основывать большую часть чего-либо на одном критерии - вам нужно несколько критериев, и даже тогда вы не получите четкого древовидного решения, но «это немного ближе к этому, чемдругая вещь "вид результата.

Деревья решений для классификации документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Деревья решений для классификации документов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы