Я бы выбрал документы / тексты, которые не принадлежат ни к одному из первых 3 классов.
Здесь есть важный улов, вероятно, что количество документов будет очень большим по сравнению с количеством документов в каждом другом классе, поэтому, вероятно, вам нужно сделать выборку (например, случайным образом). выбирая количество документов), Unknown
класс.