Преобразуйте csr_matrix, используя toarray (), и получите 'ValueError array is too big' - PullRequest
0 голосов
/ 23 апреля 2019

Я хочу преобразовать csr_matrix в массив, используя toarray (), но получаю сообщение об ошибке «массив valueerror слишком велик»

Я пытаюсь использовать todense (), но не работает.

Этомой пример набора данных в формате .svm:

-1 4:0.0788382 5:0.124138 6:0.117647 11:0.428571 16:0.1 17:0.749633 18:0.843029 19:0.197344 21:0.142856 22:0.142857 23:0.142857 28:1 33:0.0555556 41:0.1 54:1 56:1 64:1 70:1 72:1 74:1 76:1 82:1 84:1 86:1 88:1 90:1 92:1 94:1 96:1 102:1 104:1 106:1 108:1 110:1 112:1 155:1 190:1 204:1 359:1 360:1 361:1 1306:1 1309:1 1310:1 1311:1 2408:1 2921:1 2923:1 7000:1 7001:1 7002:1 7005:1 7006:1 7007:1 7009:1 7010:1 7759:1 7762:1 155153:1 155154:1 155155:1 155156:1 155157:1 155158:1 155159:1 155160:1 155161:1 155163:1 155164:1 155165:1 155166:1 155168:1 155169:1 155170:1 155172:1 155173:1 155174:1 155175:1 155176:1 155177:1 155178:1 155179:1 155180:1 155181:1 155182:1 155183:1 155194:1 155195:1 155196:1 155197:1 155198:1 155199:1 155200:1 155201:1 155202:1 155203:1 155204:1 155205:1 155206:1 155207:1 155208:1 155209:1 155210:1 155211:1 155212:1 155213:1 945789:1 1988571:1 2139257:1 2987739:1 3224681:1
-1 2:1 4:0.165975 5:0.103448 6:0.176471 11:0.285714 17:0.72266 18:0.836498 19:0.6189 21:0.0119031 22:0.0119048 24:1 25:1 28:1 33:0.222222 41:0.4 54:1 56:1 62:1 64:1 66:1 68:1 70:1 72:1 74:1 75:0.25 76:1 77:0.166667 79:0.230769 81:0.2 82:1 84:1 86:1 88:1 90:1 92:1 102:1 104:1 106:1 108:1 110:1 112:1 127:1 129:1 130:1 151:1 152:1 155:1 215:1 216:1 217:1 225:1 253:1 441:1 731:1 732:1 733:1 736:1 737:1 738:1 1283:1 1286:1 1365:1 1366:1 1961:1 1964:1 2989:1 4335:1 7258:1 7259:1 7261:1 7262:1 7831:1 9521:1 10821:1 10822:1 20540:1 41582:1 52845:1 155153:1 155154:1 155155:1 155156:1 155157:1 155158:1 155159:1 155160:1 155163:1 155164:1 155166:1 155168:1 155169:1 155170:1 155172:1 155173:1 155174:1 155175:1 155176:1 155177:1 155178:1 155179:1 155180:1 155181:1 155182:1 155183:1 155194:1 155195:1 155196:1 155197:1 155198:1 155199:1 155200:1 155201:1 155202:1 155203:1 155204:1 155205:1 155206:1 155207:1 155208:1 155209:1 155210:1 155211:1 155212:1 155213:1 821974:1 1184372:1 1878831:1 2871444:1
-1 2:1 4:0.0912863 5:0.144828 6:0.117647 10:1 11:0.142857 17:0.760482 18:0.820882 19:0.150678 21:0.142856 22:0.142857 24:1 28:1 33:0.111111 44:1 54:1 56:1 62:1 64:1 66:1 68:1 70:1 72:1 74:1 76:1 82:1 84:1 86:1 88:1 90:1 92:1 94:1 96:1 102:1 104:1 106:1 108:1 110:1 112:1 155:1 4702:1 4703:1 4704:1 4705:1 4706:1 4707:1 4957:1 4958:1 4959:1 4960:1 4961:1 4963:1 4964:1 4965:1 13232:1 155153:1 155154:1 155155:1 155156:1 155157:1 155158:1 155159:1 155160:1 155163:1 155164:1 155166:1 155168:1 155169:1 155170:1 155172:1 155173:1 155174:1 155175:1 155176:1 155177:1 155178:1 155179:1 155180:1 155181:1 155182:1 155183:1 155194:1 155195:1 155196:1 155197:1 155198:1 155199:1 155200:1 155201:1 155202:1 155203:1 155204:1 155205:1 155206:1 155207:1 155208:1 155209:1 155210:1 155211:1 155212:1 155213:1 361398:1 1470090:1 2439532:1
-1 4:0.0580913 5:0.0896552 6:0.176471 11:0.142857 21:0.285713 22:0.0238095 24:1 25:1 28:1 36:1 44:1 54:1 56:1 62:1 64:1 66:1 68:1 70:1 72:1 74:1 76:1 82:1 84:1 86:1 88:1 90:1 92:1 94:1 96:1 102:1 104:1 106:1 108:1 110:1 112:1 129:1 151:1 153:1 155:1 712:1 713:1 714:1 715:1 716:1 717:1 1282:1 1283:1 1284:1 1285:1 1286:1 1287:1 3483:1 4122:1 8157:1 155153:1 155154:1 155155:1 155156:1 155157:1 155163:1 155164:1 155166:1 155168:1 155169:1 155170:1 155172:1 155173:1 155174:1 155175:1 155176:1 155177:1 155178:1 155179:1 155180:1 155181:1 155182:1 155183:1 155194:1 155195:1 155196:1 155197:1 155198:1 155199:1 155200:1 155201:1 155202:1 155203:1 155204:1 155205:1 155206:1 155207:1 155208:1 155209:1 155210:1 155211:1 155212:1 155213:1 929754:1
+1 2:1 4:0.0788382 5:0.131034 6:0.117647 10:1 11:0.142857 16:0.4 17:0.830283 18:0.83965 19:0.583194 20:1 21:0.285713 22:0.00595238 23:0.00595238 36:1 37:1 44:1 45:1 54:1 56:1 62:1 64:1 66:1 68:1 70:1 72:1 74:1 75:0.25 76:1 77:0.166667 79:0.0769231 81:0.05 82:1 84:1 86:1 88:1 90:1 92:1 94:1 96:1 102:1 104:1 106:1 108:1 110:1 112:1 131:1 133:1 139:1 141:1 143:1 145:1 147:1 149:1 253:1 260:1 277:1 304:1 305:1 425:1 521:1 673:1 674:1 675:1 676:1 731:1 732:1 733:1 1365:1 1488:1 2098:1 6027:1 6028:1 6029:1 6030:1 6031:1 9989:1 18073:1 18074:1 18077:1 18078:1 18079:1 18080:1 155153:1 155154:1 155155:1 155156:1 155157:1 155158:1 155159:1 155160:1 155161:1 155163:1 155164:1 155165:1 155166:1 155167:1 155168:1 155169:1 155170:1 155171:1 155172:1 155173:1 155174:1 155175:1 155176:1 155177:1 155178:1 155179:1 155180:1 155181:1 155182:1 155183:1 155184:1 155185:1 155186:1 155187:1 155188:1 155189:1 155190:1 155191:1 155192:1 155193:1 155194:1 155195:1 155196:1 155197:1 155198:1 155199:1 155200:1 155201:1 155202:1 155203:1 155204:1 155205:1 155206:1 155207:1 155208:1 155209:1 155210:1 155211:1 155212:1 155213:1 500481:1

Вот как загрузить набор данных

X,y = load_svmlight_file(f,n_features=3231952)

Это набор данных в формате csr_matrix (X):

  (0, 1)        1.0
  (0, 3)        0.0248963
  (0, 4)        0.0413793
  (0, 5)        0.0588235
  (0, 10)       0.285714
  (0, 16)       0.684456
  (0, 17)       0.847108
  (0, 18)       0.564399
  (0, 20)       0.285713
  (0, 21)       0.0119048

Мне нужно передать X, чтобы соответствовать ()

vectorizer = TfidfVectorizer(tokenizer=getTokens)
vectorizer.fit(x_array)

Мне нужно преобразовать csr_matrix в массив для передачи в функцию fit () функции TfidfVectorizer без 'слишком большой массив ValueError'

...