Неанглийская матрица терминов-документов - PullRequest
0 голосов
/ 26 февраля 2019

Я хочу построить матрицу Term-Document на python для арабского языка, я использовал CountVectorizer (), но он дает документы в столбце и термины в строке.Я хочу, чтобы термины были в столбцах, а документы - в строках, я пытался транспонировать матрицу, но она дает неправильные значения, вот код, который я использовал.

corpus = [ 'القدرة على التفكير و الحل', 'القدرة على التعلم و القدرة على التفكير في المسائل', 'القدرة على التعلم في حل المسائل']
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)
v = X.toarray()
...