У меня есть текст на испанском языке для классификации.Я использую язык Python.Я использую код ниже для классификации текста на испанском языке.Но это дает меньшую точность.
# For pre-prosessing using below code.
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.stem import SnowballStemmer
from nltk import word_tokenize
cls_txt = 'some spanish text'
cls_txt = re.sub('[^a-zA-Z]', ' ', text)
cls_txt = cls_txt.lower()
cls_txt = cls_txt.split()
cls_txt = [word for word in cls_txt if not word in set(stopwords.words('spanish'))]
cls_txt = ' '.join(cls_txt)
stemmer = SnowballStemmer('spanish')
cls_txt = [stemmer.stem(word) for word in word_tokenize(cls_txt)]
cls_txt = ' '.join(cls_txt)
# For Classification using below code
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=0)
from sklearn.naive_bayes import GaussianNB
classifier = GaussianNB()
classifier.fit(X_train, y_train)
y_pred = classifier.predict(X_test)
Это правильный подход?Пожалуйста, предложите мне лучший код и подход для классификации текста на испанском языке.Спасибо за продвижение.