Эффективно ли хранить частоту терминов и Idf как:
term1: doc1, tf, doc2, tf, idf
term2: doc1, tf, doc2, tf, idf, doc3, tf, idf
или сохраните tf-idf как:
doc1: tfidf1, tfidf2, tfidf3
doc2: tfidf1,tfidf2, tfidf3
, где длина вокаба равна 3.
PS: у меня примерно полмиллиона документов