Как классифицировать текст в категории с помощью дерева решений - PullRequest
0 голосов
/ 06 мая 2019

Из 2 RSS-каналов я импортировал некоторые текстовые данные, а затем создал 2 матрицы условий документа (DTM).Я работал над различными статистическими данными по этому DTM, такими как наиболее частые термины и т. Д., Но теперь я хочу использовать эти два DTM, и с 70% данных тренируется модель (дерево решений), которая сможет идентифицировать ленту новостейв одной из двух категорий («Образование и окружающая среда») я буду использовать оставшиеся 30% для проверки его эффективности.Как я могу это сделать?То, что я сделал до сих пор, это:

# Convert Data from DTM  to Dataframe
data_fr1<-as.data.frame(as.matrix(DTM1),stringsAsFactors=False) 
data_fr2<-as.data.frame(as.matrix(DTM2),stringsAsFactors=False) 

class<-c(rep("edu",nrow(data_fr1)))
data_fr1<-cbind(data_fr1, class) # Class1 Label
class<-c(rep("env",nrow(data_fr2)))
data_fr2<-cbind(data_fr2, class) # Class2 label

Как я буду действовать дальше?Должен ли я присоединиться к 2 кадрам данных перед тренировкой модели?Как я присоединюсь к ним и что произойдет с общими условиями, если применимо?Как насчет требования 70% образцов, используемых для обучения.Должен ли я взять 70%, прежде чем присоединиться к столам?

1 Ответ

0 голосов
/ 07 мая 2019

Если у вас есть один RSS для «edu», а другой для «env», да, вы должны объединить эти два источника данных (и изменить порядок). Затем вы разделяете данные на 70:30 (для обучения и тестирования). Из-за перемешивания мы предполагаем, что раздел обучения и тестирования содержит аналогичное распределение помеченных данных.

Общие термины в порядке, и они все еще могут быть информативными (если прирост информации для термина не равен нулю). Например,

At a certain split of the tree,
  there are 20 examples with term "biology" have the label of "edu", 
  but 180 examples with term "biology" has the label of "env", 
  and 200 examples without the term "biology". 

Если вы решите разделить на «биологию», для 200 примеров, содержащих «биологию», вы получите точность классификации 90% на обучающих примерах (если это разделение является корнем). Не плохо, правда? (конечно, вы можете продолжать разбивать те примеры, у которых нет термина «биология»)

...