Как визуализировать большой набор документов? - PullRequest
1 голос
/ 20 мая 2009

У меня 100 Гб документов. Я хотел бы охарактеризовать его и получить общее представление о том, какие темы преобладают.

Документы в виде простого текста.

Я рассмотрел возможность использования такого инструмента, как Google Desktop, для поиска, но он слишком велик, чтобы по-настоящему угадать, что искать, и требует слишком много времени для выполнения достаточного количества запросов, чтобы охватить весь набор.

Существуют ли какие-либо свободно доступные инструменты для кластеризации большого набора данных документов?

Существуют ли такие инструменты, которые могут визуализировать такие кластеры?

Ответы [ 2 ]

0 голосов
/ 22 мая 2009

Для базового подхода НЛП вы можете представлять каждый документ как вектор на основе частот слов, а затем кластеризовать векторы документов, используя байесовский или другие методы (SVM, k-means и т. Д.).

Соответствующие ответы см. В этом чем-то похожем SO вопросе .

0 голосов
/ 20 мая 2009

Вам нужно изучить инструменты, которые выполняют обработку на естественном языке. По сути, вы можете достаточно надежно определить (используя статистические инструменты) язык документа (см. http://en.wikipedia.org/wiki/N-gram) и область дискурса (см. http://en.wikipedia.org/wiki/Support_vector_machine).). Некоторые инструменты должны быть доступны, если вы начинаете с Википедии.

...