Question

В настоящее время я пытаюсь обучить модель обнаружению фальшивых новостей и пытаюсь сформулировать свой тренировочный набор. В моем обучающем наборе есть заголовки в массивах, которые выглядят так:

[['four', 'way', 'bob', 'corker', 'skewer', 'donald', 'trump'], ['linklat', "'s", 'war', 'veteran', 'comedi', 'speak', 'modern', 'america', ',', 'say', 'star'], ['trump', '’', 'fight', 'with', 'corker', 'jeopard', 'his', 'legisl', 'agenda']]

Однако я также пытаюсь указать, является ли каждый заголовок Истинным (обозначается 1) или Ложным (0). Как я могу добавить эти метки true / false в каждом заголовке, чтобы они выглядели примерно так:

[(['four', 'way', 'bob', 'corker', 'skewer', 'donald', 'trump'],1)

Таким образом, моя модель сможет тренироваться так, как если бы каждый заголовок был истинным или ложным.

Вот мой код:

data = pd.read_csv("/Users/amanpuranik/Desktop/fake-news-detection/data.csv")
data = data[['Headline', "Label"]]

x = np.array(data['Headline'])
y = np.array(data["Label"])

# tokenization of the data here'
headline_vector = []

for  headline in x:
    headline_vector.append(word_tokenize(headline))

#print(headline_vector)



stopwords = set(stopwords.words('english'))

#removing stopwords at this part
filtered = [[word for word in sentence if word not in stopwords]
            for sentence in headline_vector]
#print(filtered)

#stemming the headlines
ps = PorterStemmer()

stemmed2 = [[stem(word) for word in headline] for headline in filtered]
#print(stemmed2)

#lowercase
lower = [[word.lower() for word in headline] for headline in stemmed2]
print(lower)

training_set =
testing_set =

Как добавить массив с несколькими переменными

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Как добавить массив с несколькими переменными

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы