Как сделать плотную матрицу на входе в трансформатор Tfidf? - PullRequest
0 голосов
/ 24 февраля 2020

Как вообще заставить этот код работать с моими данными?

    # build term document matrix
    V = len(word2idx)
    N = len(sentences)  #sentences=sents
    print("V:", V, "N:", N)

    # create raw counts first
    A = np.zeros((V, N))    

    j = 0
    for sentence in sentences:
        for i in sentence:
            A[i,j] += 1
        j += 1
    print("finished getting raw counts")

    transformer = TfidfTransformer()
    A = transformer.fit_transform(A.T).T

Проблема в том, что значения V или N имеют значение c. 200к + и 30к. Слишком много за пределами моего стека памяти и @ line np.zeros( память возникает. Могу ли я избежать этого l oop и получить матрицу A плотной в качестве входных данных для Tfidf прямо?

Я прочитал, что должен использовать PySpark. Должен ли я действительно?

...