Если у вас есть один RSS для «edu», а другой для «env», да, вы должны объединить эти два источника данных (и изменить порядок). Затем вы разделяете данные на 70:30 (для обучения и тестирования). Из-за перемешивания мы предполагаем, что раздел обучения и тестирования содержит аналогичное распределение помеченных данных.
Общие термины в порядке, и они все еще могут быть информативными (если прирост информации для термина не равен нулю). Например,
At a certain split of the tree,
there are 20 examples with term "biology" have the label of "edu",
but 180 examples with term "biology" has the label of "env",
and 200 examples without the term "biology".
Если вы решите разделить на «биологию», для 200 примеров, содержащих «биологию»,
вы получите точность классификации 90% на обучающих примерах (если это разделение является корнем). Не плохо, правда? (конечно, вы можете продолжать разбивать те примеры, у которых нет термина «биология»)