Я делал LDA Model.
from helper import *
import warnings
warnings.filterwarnings('ignore')
import pandas as pd
import gensim
from gensim.models import ldamodel
import gensim.corpora
#sp = split.astype('str')
text_list = [i.split() for i in text]
#text_list = split[0]
train_headlines = [i.split() for i in text_list[0]];
num_topics = 10
id2word = gensim.corpora.Dictionary(train_headlines)
corpus = [id2word.doc2bow(text) for text in train_headlines]
lda = ldamodel.LdaModel(corpus=corpus, id2word=id2word, num_topics=num_topics)
def get_lda_topics(model, num_topics):
word_dict = {}
for i in range(num_topics):
words = model.show_topic(i, topn = 50);
word_dict['Topic # ' + '{:02d}'.format(i+1)] = [i[0] for i in words]
#print(word_dict)
return pd.DataFrame(word_dict)
topics_lda = get_lda_topics(lda, num_topics)
И в результате в dataframe # 1 содержится слово, подобное этому:
Topic # 01 Topic # 02 Topic # 03 Topic # 04 Topic # 05 Topic # 06 Topic # 07 Topic # 08
0 mendapat Kompascom ini resmi dalam jaringan baru KOMPAScom
1 dunia secara fakta IFCN lain Network selain Di
2 selain selain Lembaga secara Kompascom secara secara penguji
3 ada Network Kompascom Kompascom ini 49 Kompascom dunia
, и я хочу проверить, является ли содержимое dataframe № 1 также находится в списке № 2. Ниже приведен список № 2:
['dalam', 'database', 'dilihat', 'sini', 'atau', 'bisa', 'hoaks', 'fakta', 'di', 'KOMPAScom']
['liputan6com', 'mafindo', 'itu', 'tirtoid', 'tempoco', 'lima', 'turnbackhoaxid', 'adalah', 'lembaga', 'dan']
['lembaga', 'checking', 'fact', '49', 'jaringan', 'ada', 'international', 'tersertifikasi', 'network', 'penguji']
['sumber', 'dijadikan', 'beritanya', 'pendanaan', 'partisan', 'non', 'sikap', 'dasar', 'transparan', 'mengutip']
Таким образом, результат будет:
'mendapat':0, 'Kompascom':0, 'ini': 0, 'resmi':0, 'dalam':1, 'jaringan':1, 'baru':0, 'KOMPAScom':1,.....
1, если текст находится в кадре данных и list, 0, если текст находится только в одном кадре данных или списке. Может кто-нибудь может помочь? Спасибо. Любая помощь приветствуется.