Чтение в многомерных данных в R без использования фрейма данных - PullRequest
1 голос
/ 02 января 2012

У меня очень разреженные текстовые данные (40k наблюдений, 20k измерений) в формате ARFF , сгенерированные с помощью WEKA .

В R доступны 2 считывателя ARFF в RWeka и иностранных пакетах.Проблема обоих этих считывателей arff заключается в том, что они считывают данные arff во фрейм данных (и, следовательно, вы переходите от разреженных данных к не разреженному способу хранения), и поскольку мой набор данных довольно большой, ни то, ни другоепрактичный способ.На самом деле у меня заканчивается нехватка памяти, когда RWeka пытается прочитать в файле arff.

Итак, вопросы:

(1) Каков подходящий способ хранения и обработки моих данныхпод R?Обратите внимание, что я читаю текстовые данные с пометкой, так как хочу классифицировать текст.Таким образом, любое разреженное представление (в идеале) должно использоваться классификаторами как есть.

(2) Что более важно, как мне тогда читать в моем файле arff в этом формате (как в вопросе 1)?

Заранее спасибо.

- Правка -

Извлечение моего файла ARFF, как было запрошено в одном из комментариев:

@relation train.arff-weka.filters.unsupervised.attribute.StringToWordVector-R1-W100000-prune-rate-1.0-I-N1-L-stemmerweka.core.stemmers.LovinsStemmer-M1-tokenizerweka.core.tokenizers.AlphabeticTokenizer
@attribute myclasses {alpha, beta, gamma, delta}
@attribute aardvark numeric
@attribute abbrevi numeric
@attribute abduc numeric
@data
{102 7.686363,166 6.302574,791 9.204264,1854 1.370962,2830 5.907602}
{1727 14.842519}
{103 0.774816,289 2.874456,413 3.729545,517 4.723478,1286 1.417374,1531 3.23805,1637 4.534334,1708 3.544581,1854 0.961008,1878 3.731564,2105 7.701038,2209 4.83372,2466 5.663894}
{1 1.368628,103 0.582774,225 5.61684,954 5.792294,1082 5.194097,1160 5.792294,1799 4.367975,1854 0.722817,2220 4.114164,2304 2.967602,2456 3.186834,2564 0.701145,2839 6.039582}

1 Ответ

0 голосов
/ 03 января 2012

То, как вы читаете данные, зависит от того, какую структуру данных использует анализ.Поэтому я бы начал с поиска пакетов, которые могут работать с разреженными данными (см. Дискретный и непрерывный классификатор для разреженных данных ).Как упоминалось в ответах на этот вопрос, Weka поддерживает разреженные данные ARFF (см. Обработка больших наборов данных с Weka на Pentaho ).

...