Хранение TF-IDF по сравнению с частотой членов и idf отдельно в модели векторного пространства - PullRequest
0 голосов
/ 10 октября 2018

Эффективно ли хранить частоту терминов и Idf как:

term1: doc1, tf, doc2, tf, idf

term2: doc1, tf, doc2, tf, idf, doc3, tf, idf

или сохраните tf-idf как:

doc1: tfidf1, tfidf2, tfidf3

doc2: tfidf1,tfidf2, tfidf3

, где длина вокаба равна 3.

PS: у меня примерно полмиллиона документов

...