У меня очень разреженные текстовые данные (40k наблюдений, 20k измерений) в формате ARFF , сгенерированные с помощью WEKA .
В R доступны 2 считывателя ARFF в RWeka и иностранных пакетах.Проблема обоих этих считывателей arff заключается в том, что они считывают данные arff во фрейм данных (и, следовательно, вы переходите от разреженных данных к не разреженному способу хранения), и поскольку мой набор данных довольно большой, ни то, ни другоепрактичный способ.На самом деле у меня заканчивается нехватка памяти, когда RWeka пытается прочитать в файле arff.
Итак, вопросы:
(1) Каков подходящий способ хранения и обработки моих данныхпод R?Обратите внимание, что я читаю текстовые данные с пометкой, так как хочу классифицировать текст.Таким образом, любое разреженное представление (в идеале) должно использоваться классификаторами как есть.
(2) Что более важно, как мне тогда читать в моем файле arff в этом формате (как в вопросе 1)?
Заранее спасибо.
- Правка -
Извлечение моего файла ARFF, как было запрошено в одном из комментариев:
@relation train.arff-weka.filters.unsupervised.attribute.StringToWordVector-R1-W100000-prune-rate-1.0-I-N1-L-stemmerweka.core.stemmers.LovinsStemmer-M1-tokenizerweka.core.tokenizers.AlphabeticTokenizer
@attribute myclasses {alpha, beta, gamma, delta}
@attribute aardvark numeric
@attribute abbrevi numeric
@attribute abduc numeric
@data
{102 7.686363,166 6.302574,791 9.204264,1854 1.370962,2830 5.907602}
{1727 14.842519}
{103 0.774816,289 2.874456,413 3.729545,517 4.723478,1286 1.417374,1531 3.23805,1637 4.534334,1708 3.544581,1854 0.961008,1878 3.731564,2105 7.701038,2209 4.83372,2466 5.663894}
{1 1.368628,103 0.582774,225 5.61684,954 5.792294,1082 5.194097,1160 5.792294,1799 4.367975,1854 0.722817,2220 4.114164,2304 2.967602,2456 3.186834,2564 0.701145,2839 6.039582}