Как вообще заставить этот код работать с моими данными?
# build term document matrix
V = len(word2idx)
N = len(sentences) #sentences=sents
print("V:", V, "N:", N)
# create raw counts first
A = np.zeros((V, N))
j = 0
for sentence in sentences:
for i in sentence:
A[i,j] += 1
j += 1
print("finished getting raw counts")
transformer = TfidfTransformer()
A = transformer.fit_transform(A.T).T
Проблема в том, что значения V или N имеют значение c. 200к + и 30к. Слишком много за пределами моего стека памяти и @ line np.zeros(
память возникает. Могу ли я избежать этого l oop и получить матрицу A
плотной в качестве входных данных для Tfidf прямо?
Я прочитал, что должен использовать PySpark. Должен ли я действительно?