Исключая слова в облаке слов - PullRequest
1 голос
/ 29 апреля 2020

Я пытаюсь исключить некоторые дополнительные слова из библиотеки стоп-слов nltk для испанских sh слов, но всякий раз, когда я применяю следующий код, не отражается в конечном мире облаков. Я считаю, что это связано со структурой списка, которая на самом деле не применяется критериями фильтра слов, но я не могу понять, почему.

lines

['Comment Message\n',
'Aprovechamiento polÃ\xadtico , estás publicaciones no ayudan en nada,  no veo que ustedes y sus 
partidos polÃ\xadticos estén haciendo algo,  solo sembrando discordia y odio, estamos en tiempos 
difÃ\xadciles y esto no aporta,  y recuerden que también son parte de los ricos,  y no he visto que 
se metan la mano al bolsillo y repartir. Hay muchas personas con depresión y angustia y esto no 
aporta en nada\n',
'\n',
'Que pena que el agua que es un recurso natural lo tengamos algunos pocos agua para toda la gente que 
lo necesite lo exigimos ahora ya\n',
'Y los malditos de barrio ALTO LADRONES tienen de todo Sodre todos los esclavos de Piñera y mas\n',
'No hay derecho\n',
'AGUA para todos los chilenos ahora!!!!\n',
'Todos estos chanchos culiaos que nos roban hasta lo más básico.. fuera piñera 
conchetumadre...\n',
'Piñera ya te diste el lujo de ser presidente de la republica de Chile no eres politico eres 
empresario por lo tanto piensas y actuas como empresario por respeto a quienes votaron por ti da un 
paso al costado toma tu dinero que no fue ganado con sacrificio si no con estafas y vete a otro pais 
y deja vivir a los chilenos de corazon vivir como queremos vivir EN PAZ\n',
'No se queden somitidos por la constitucion, hecha por un gobierno dictatorial y genocida, 
despierten.\n',
'No puede ser gobierno corrupto devuelvan El Agua al Pueblo\n',
'Háganlo saber por TV y YouTube a la organización mundial de la salud.... OMS...\n',
'Señor..te suplicó del fondo de mi alma que mandes lluvia para tu pueblo y misericordi por este 
hombre que tenemos como presidente. ..Que nos damos cuenta que está ciego, sordo y mudo ...estamos 
sólo en esta tierra sólo tú  Padre mÃ\xado dueño del Sol de la Luna del Viento. .de la vida y la 
muerte ..ven pronto a nuestra ayuda. ..\n',

and continues .... ]

К этому list я применяю следующую функцию

def remove_stopwords(words):
     """Remove stop words from list of tokenized words"""
       new_words = []

       stopwords = nltk.corpus.stopwords.words('spanish')
       newStopWords = ['que','el','del','es','la'  , 'de','un','son','tambien','porque', 'cuando' , 
       'lo' , 'su' , 'pueden' ,'hacer' , 'le' , 'esto' , 'nadie' , 'yo' , 'chile' , 'mas' , 'hasta' , 
       'por' , 'da' , 'mi' , 'ni' ,'estan' , 'todo' , 'el ' , 'con' , 'por' , 'para' , 'la ' , 'eso' 
       , 'nos' , 'dio' , 'ello' , 'es ' ,'un ' , 'tu' , 'donde' , 'solo' , 'nosotros' , 'mas ','hace' 
       , 'toda' , 'toda ', 'si' , 'si ','lo ' , 'lo' , 'que ' , 'la' , 'tener' , ' tener' , ' la' , ' 
       que' , ' de' , ' una' , 'todo' , 'son','esta' , 'cual' , 'desde' ,' desde' , 'nada' , 'esa' , 
       'eso' ,' de ' , 'de ' ,'te','alguna',' lo','cuando', ' donde' , ' como ' , ' como' , 'como' , 
       'como ']
       stopwords.extend(newStopWords)

       for word in words:
         if word not in stopwords:
            new_words.append(word)

       return new_words

 remove_stopwords(lines)

Это ничего не делает, и у меня все еще есть исключенные слова в lines. Я полагаю, возможно, это потому, что я не токенизировал lines, но всякий раз, когда я применяю:

 word_tokens = word_tokenize(lines)

эта ошибка отображается:

TypeError: expected string or bytes-like object
...