Библиотека Java Matrix для смеси типов данных (включая строки) - PullRequest
1 голос
/ 26 февраля 2012

Я ищу библиотеку Java Matrix для анализа данных и реализации алгоритмов кластеризации (например, K-means или DBSCAN)

Я нашел Colt и Parallel Colt (лучше всего работает с большими и маленькими наборами данных)но, видимо, они не поддерживают строковые матрицы.Записи набора данных должны быть только двойными матрицами.

Есть ли какие-либо предложения?

Заранее благодарю за помощь.

1 Ответ

0 голосов
/ 28 февраля 2012

Посмотрите на ELKI . Он поддерживает произвольные функции расстояния и уже имеет косинусное расстояние. Таким образом, он может запускать эти алгоритмы на текстовых данных.

Обратите внимание, что для большинства приложений вы захотите преобразовать свои строковые данные в векторы TF-IDF, поскольку косинусное расстояние также определяется для числовых векторов. Однако эти векторы обычно редки, поэтому оптимизированная обработка разреженных векторов окупается.

...