Я пытаюсь исключить некоторые дополнительные слова из библиотеки стоп-слов nltk для испанских sh слов, но всякий раз, когда я применяю следующий код, не отражается в конечном мире облаков. Я считаю, что это связано со структурой списка, которая на самом деле не применяется критериями фильтра слов, но я не могу понять, почему.
lines
['Comment Message\n',
'Aprovechamiento polÃ\xadtico , estás publicaciones no ayudan en nada, no veo que ustedes y sus
partidos polÃ\xadticos estén haciendo algo, solo sembrando discordia y odio, estamos en tiempos
difÃ\xadciles y esto no aporta, y recuerden que también son parte de los ricos, y no he visto que
se metan la mano al bolsillo y repartir. Hay muchas personas con depresión y angustia y esto no
aporta en nada\n',
'\n',
'Que pena que el agua que es un recurso natural lo tengamos algunos pocos agua para toda la gente que
lo necesite lo exigimos ahora ya\n',
'Y los malditos de barrio ALTO LADRONES tienen de todo Sodre todos los esclavos de Piñera y mas\n',
'No hay derecho\n',
'AGUA para todos los chilenos ahora!!!!\n',
'Todos estos chanchos culiaos que nos roban hasta lo más básico.. fuera piñera
conchetumadre...\n',
'Piñera ya te diste el lujo de ser presidente de la republica de Chile no eres politico eres
empresario por lo tanto piensas y actuas como empresario por respeto a quienes votaron por ti da un
paso al costado toma tu dinero que no fue ganado con sacrificio si no con estafas y vete a otro pais
y deja vivir a los chilenos de corazon vivir como queremos vivir EN PAZ\n',
'No se queden somitidos por la constitucion, hecha por un gobierno dictatorial y genocida,
despierten.\n',
'No puede ser gobierno corrupto devuelvan El Agua al Pueblo\n',
'Háganlo saber por TV y YouTube a la organización mundial de la salud.... OMS...\n',
'Señor..te suplicó del fondo de mi alma que mandes lluvia para tu pueblo y misericordi por este
hombre que tenemos como presidente. ..Que nos damos cuenta que está ciego, sordo y mudo ...estamos
sólo en esta tierra sólo tú Padre mÃ\xado dueño del Sol de la Luna del Viento. .de la vida y la
muerte ..ven pronto a nuestra ayuda. ..\n',
and continues .... ]
К этому list
я применяю следующую функцию
def remove_stopwords(words):
"""Remove stop words from list of tokenized words"""
new_words = []
stopwords = nltk.corpus.stopwords.words('spanish')
newStopWords = ['que','el','del','es','la' , 'de','un','son','tambien','porque', 'cuando' ,
'lo' , 'su' , 'pueden' ,'hacer' , 'le' , 'esto' , 'nadie' , 'yo' , 'chile' , 'mas' , 'hasta' ,
'por' , 'da' , 'mi' , 'ni' ,'estan' , 'todo' , 'el ' , 'con' , 'por' , 'para' , 'la ' , 'eso'
, 'nos' , 'dio' , 'ello' , 'es ' ,'un ' , 'tu' , 'donde' , 'solo' , 'nosotros' , 'mas ','hace'
, 'toda' , 'toda ', 'si' , 'si ','lo ' , 'lo' , 'que ' , 'la' , 'tener' , ' tener' , ' la' , '
que' , ' de' , ' una' , 'todo' , 'son','esta' , 'cual' , 'desde' ,' desde' , 'nada' , 'esa' ,
'eso' ,' de ' , 'de ' ,'te','alguna',' lo','cuando', ' donde' , ' como ' , ' como' , 'como' ,
'como ']
stopwords.extend(newStopWords)
for word in words:
if word not in stopwords:
new_words.append(word)
return new_words
remove_stopwords(lines)
Это ничего не делает, и у меня все еще есть исключенные слова в lines
. Я полагаю, возможно, это потому, что я не токенизировал lines
, но всякий раз, когда я применяю:
word_tokens = word_tokenize(lines)
эта ошибка отображается:
TypeError: expected string or bytes-like object