У меня 100 Гб документов. Я хотел бы охарактеризовать его и получить общее представление о том, какие темы преобладают.
Документы в виде простого текста.
Я рассмотрел возможность использования такого инструмента, как Google Desktop, для поиска, но он слишком велик, чтобы по-настоящему угадать, что искать, и требует слишком много времени для выполнения достаточного количества запросов, чтобы охватить весь набор.
Существуют ли какие-либо свободно доступные инструменты для кластеризации большого набора данных документов?
Существуют ли такие инструменты, которые могут визуализировать такие кластеры?