Я хочу вычислить расстояние Джакарта между двумя кадрами. В частности, я хочу вычислить попарные расстояния Джакарта между всеми объектами Google (34000 строк, 7 столбцов) и всеми объектами Amazon (34000 строк, 7 столбцов) отдельно, используя модель CountVectorizer. Я создал countVectorizer для каждого кадра данных следующим образом:
cv = CountVectorizer(analyzer='word', ngram_range=(1,1), stop_words='english', binary=True)
cvGoogle = cv.fit_transform(goog_s)
cvAmazon = cv.fit_transform(amaz_s)
После создания CountVectorizer мне нужно создать структуру данных, в которой я сравниваю каждую из сущностей двух векторов, используя Jaccard Distance
, и сохраняю ее вкадр данных, где каждая строка соответствует объекту из набора данных Google, а каждый столбец соответствует объекту из набора данных Amazon.