Получить аналогичные термины из матрицы сходства - PullRequest
0 голосов
/ 11 октября 2019

Я использую встраивание Fasttext и gensim для вычисления семантического поиска в корпусе документа. Из запроса в несколько слов я могу получить первые N связанных документов благодаря функции softcosim в gensim. Я использую следующий код, и мои результаты довольно хороши (они достаточно уместны для нас).

fasttext_model300 = api.load('fasttext-wiki-news-subwords-300')
df = pd.read_csv('docs/mycsv.csv', ';')

documents = [d.split() for d in df['Text']]

dictionary = corpora.Dictionary(documents)

documents_doc2bow = [dictionary.doc2bow(d) for d in documents ]

tfidf = models.TfidfModel(documents_doc2bow)

documents_doc2bow_tfidf = [tfidf[d] for d in documents_doc2bow]

similarity_matrix = fasttext_model300.similarity_matrix(dictionary, tfidf=None, threshold=0.0, exponent=2.0, nonzero_limit=100)

request_doc2bow = dictionary.doc2bow('my request to the engine'.split())

## then calculate softcosim for each document

Я хотел бы знать, есть ли способ получить соответствующие термины из моего запроса,Я предполагаю, что у большинства связанных документов есть некоторые общие условия, поэтому я хотел бы получить их. С этими терминами я смогу показать соответствующие документы, а также связанные с ними общие термины.

Есть ли способ получить общие термины в группе документов?

ps: если вы думаете, что я допустил ошибки в предыдущем коде, не стесняйтесь сказать мне ахах

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...