Я использую классификацию текста для классификации диалектов. Тем не менее, я заметил, что я должен использовать countVectorizer следующим образом:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(max_features=200, min_df=2, max_df=0.7, stop_words=stopwords.words('arabic'))
X = vectorizer.fit_transform(X).toarray()
Что происходит, я создаю новый текстовый файл для каждой строки в моем CSV-файле. Я собрал 1000 твитов из твиттера. и они помечены. и я их как CSV в одном файле.
У меня есть 2 вопроса:
- Должен ли я сделать это? отделить каждую строку в одном текстовом файле? или я могу использовать его как фрейм данных
- Нужно ли использовать countVectorizer в классификации текста? есть ли другой способ?