nltk.cluster, использующий разреженное представление - PullRequest
0 голосов
/ 18 февраля 2011

Я совершенно новый в Python.

Я пытаюсь использовать пакет nltk.cluster для применения простого kMeans к матрице текстового документа. Хотя это работает, когда матрица представляет собой список объектов, похожих на массивы, я не смог заставить ее работать для разреженного представления матрицы (например, csc_matrix, csr_matrix или lil_matrix).

Вся информация, которую я нашел, была:

Обратите внимание, что векторы должны использовать массивные объекты, похожие на массивы. nltk_contrib.unimelb.tacohn.SparseArrays может использоваться для эффективности при необходимости

Я не понимаю, что это значит. Кто-нибудь может мне помочь в этом вопросе?

Заранее спасибо!

1 Ответ

1 голос
/ 23 февраля 2011

Это означает, что когда вы передаете входной вектор, вы можете либо передать numpy.array () или nltk_contrib.unimelb.tacohn.SparseArrays.

Я предлагаю вам взглянуть на пакет nltk_contrib.unimelb.tacohn , чтобы найти класс SparseArrays. Затем попробуйте создать данные с помощью этого класса, прежде чем передавать их в nltk.cluster

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...