TfIdf на панде датафрейм - PullRequest
       20

TfIdf на панде датафрейм

0 голосов
/ 25 ноября 2018

Я пытаюсь сделать классификатор текста и хочу применить tfidf к моему набору данных. Он состоит из матрицы 20x20. В каждом столбце 20 документов (по 50 000 слов) одного автора. Я читаюCSV с использованием панд, а затем я пытаюсь применить TfidfVectorizer к моим данным. Проблема в том, что это довольно медленно, и мне интересно, можно ли это сделать быстрее. Это мой подход:

results = np.array(400)
for author in authors:
    results = np.append(results, list(data_set[author]))

tf_idf = TfidfVectorizer(sublinear_tf=True, norm='l2', min_df=0.3, max_df=0.75, encoding='latin-1', ngram_range=(1, 2), stop_words='english')
features = tf_idf.fit_transform(results)

Я перебираю каждый столбец и добавляю его к результатам. Я получаю массив (400,) в форме массива (20 авторов х 20 документов = 400). Для его завершения требуется более одной минуты (большую часть времени тратится наметод fit_transform). Спасибо!

...