Я использую встраивание Fasttext и gensim для вычисления семантического поиска в корпусе документа. Из запроса в несколько слов я могу получить первые N связанных документов благодаря функции softcosim в gensim. Я использую следующий код, и мои результаты довольно хороши (они достаточно уместны для нас).
fasttext_model300 = api.load('fasttext-wiki-news-subwords-300')
df = pd.read_csv('docs/mycsv.csv', ';')
documents = [d.split() for d in df['Text']]
dictionary = corpora.Dictionary(documents)
documents_doc2bow = [dictionary.doc2bow(d) for d in documents ]
tfidf = models.TfidfModel(documents_doc2bow)
documents_doc2bow_tfidf = [tfidf[d] for d in documents_doc2bow]
similarity_matrix = fasttext_model300.similarity_matrix(dictionary, tfidf=None, threshold=0.0, exponent=2.0, nonzero_limit=100)
request_doc2bow = dictionary.doc2bow('my request to the engine'.split())
## then calculate softcosim for each document
Я хотел бы знать, есть ли способ получить соответствующие термины из моего запроса,Я предполагаю, что у большинства связанных документов есть некоторые общие условия, поэтому я хотел бы получить их. С этими терминами я смогу показать соответствующие документы, а также связанные с ними общие термины.
Есть ли способ получить общие термины в группе документов?
ps: если вы думаете, что я допустил ошибки в предыдущем коде, не стесняйтесь сказать мне ахах