Я сделал мешок с моделью слов, и когда я его распечатал, вывод не совсем понятен. Это мой код, который я использовал для инициализации пакета слов:
#creating the bag of words model
headline_bow = CountVectorizer()
headline_bow.fit(x)
a = headline_bow.transform(x)
b = headline_bow.get_feature_names()
print(a)
Это пример вывода, полученного из модели пакета слов:
(0, 837) 1
(0, 1496) 1
(0, 1952) 1
(0, 2610) 1
Из моего понимание "(0, 837) 1" означает, что в первом списке, прошедшем через модель, 837-е слово в этом списке появляется один раз. Это не имеет смысла, потому что, когда я печатаю x [0], я получаю это:
Four ways Bob Corker skewered Donald Trump
Здесь явно не 837 слов, поэтому я запутался в том, что происходит.
Вот пример того, что такое x: (несколько заголовков)
['Four ways Bob Corker skewered Donald Trump'
"Linklater's war veteran comedy speaks to modern America, says star"
'Trump’s Fight With Corker Jeopardizes His Legislative Agenda' ...
'Ron Paul on Trump, Anarchism & the AltRight'
'China to accept overseas trial data in bid to speed up drug approvals'
'Vice President Mike Pence Leaves NFL Game Because of Anti-American Protests']
Вот остаток моего кода:
data = pd.read_csv("/Users/amanpuranik/Desktop/fake-news-detection/data.csv")
data = data[['Headline', "Label"]]
x = np.array(data['Headline'])
print(x[0])
y = np.array(data["Label"])
# tokenization of the data here'
headline_vector = []
for headline in x:
headline_vector.append(word_tokenize(headline))
print(headline_vector)
stopwords = set(stopwords.words('english'))
#removing stopwords at this part
filtered = [[word for word in sentence if word not in stopwords]
for sentence in headline_vector]
#print(filtered)
stemmed2 = [[stem(word) for word in headline] for headline in filtered]
#print(stemmed2)
#lowercase
lower = [[word.lower() for word in headline] for headline in stemmed2] #start here
#conver lower into a list of strings
lower_sentences = [" ".join(x) for x in lower]
#organising
articles = []
for headline in lower:
articles.append(headline)
#creating the bag of words model
headline_bow = CountVectorizer()
headline_bow.fit(lower_sentences)
a = headline_bow.transform(lower_sentences)
print(a)