В настоящее время я пытаюсь обучить модель обнаружению фальшивых новостей и пытаюсь сформулировать свой тренировочный набор. В моем обучающем наборе есть заголовки в массивах, которые выглядят так:
[['four', 'way', 'bob', 'corker', 'skewer', 'donald', 'trump'], ['linklat', "'s", 'war', 'veteran', 'comedi', 'speak', 'modern', 'america', ',', 'say', 'star'], ['trump', '’', 'fight', 'with', 'corker', 'jeopard', 'his', 'legisl', 'agenda']]
Однако я также пытаюсь указать, является ли каждый заголовок Истинным (обозначается 1) или Ложным (0). Как я могу добавить эти метки true / false в каждом заголовке, чтобы они выглядели примерно так:
[(['four', 'way', 'bob', 'corker', 'skewer', 'donald', 'trump'],1)
Таким образом, моя модель сможет тренироваться так, как если бы каждый заголовок был истинным или ложным.
Вот мой код:
data = pd.read_csv("/Users/amanpuranik/Desktop/fake-news-detection/data.csv")
data = data[['Headline', "Label"]]
x = np.array(data['Headline'])
y = np.array(data["Label"])
# tokenization of the data here'
headline_vector = []
for headline in x:
headline_vector.append(word_tokenize(headline))
#print(headline_vector)
stopwords = set(stopwords.words('english'))
#removing stopwords at this part
filtered = [[word for word in sentence if word not in stopwords]
for sentence in headline_vector]
#print(filtered)
#stemming the headlines
ps = PorterStemmer()
stemmed2 = [[stem(word) for word in headline] for headline in filtered]
#print(stemmed2)
#lowercase
lower = [[word.lower() for word in headline] for headline in stemmed2]
print(lower)
training_set =
testing_set =