Хранится как разреженная матрица . Извлеките первые 1000 документов (строк), и, если у вас достаточно места, вы можете преобразовать его в полную плотную матрицу:
load Reuters21578.mat
TF = full( fea(1:1000,:) );
Давайте проверим переменные, которые у нас есть:
>> whos
Name Size Bytes Class Attributes
TF 1000x18933 151464000 double
fea 8293x18933 4749196 double sparse
gnd 8293x1 66344 double
testIdx 2347x1 18776 double
trainIdx 5946x1 47568 double
, чтобы вы могли видеть, TF
теперь составляет около 150 МБ.
Кроме этого, остальное не требует пояснений:
fea
: матрица частотных терминов, строки - документы, столбцы - термины
gnd
: категория каждого документа, где numel(unique(gnd)) == 65
trainIdx
/ testIdx
: разделение экземпляров (документов) для целей классификации, содержит индексы строк, используемые как: tr = fea(trainIdx,:); tt = fea(testIdx,:);