Подход к классификации испанского текста - PullRequest
0 голосов
/ 01 февраля 2019

У меня есть текст на испанском языке для классификации.Я использую язык Python.Я использую код ниже для классификации текста на испанском языке.Но это дает меньшую точность.

# For pre-prosessing using below code.
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.stem import SnowballStemmer
from nltk import word_tokenize

cls_txt = 'some spanish text'    
cls_txt = re.sub('[^a-zA-Z]', ' ', text)    
cls_txt = cls_txt.lower()    
cls_txt = cls_txt.split()    
cls_txt = [word for word in cls_txt if not word in set(stopwords.words('spanish'))]    
cls_txt = ' '.join(cls_txt)    
stemmer = SnowballStemmer('spanish')    
cls_txt = [stemmer.stem(word) for word in word_tokenize(cls_txt)]    
cls_txt = ' '.join(cls_txt)

# For Classification using below code    
from sklearn.model_selection import train_test_split    
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)    
from sklearn.naive_bayes import GaussianNB    
classifier = GaussianNB()    
classifier.fit(X_train, y_train)  
y_pred = classifier.predict(X_test)

Это правильный подход?Пожалуйста, предложите мне лучший код и подход для классификации текста на испанском языке.Спасибо за продвижение.

...