Я всегда использовал Python для кластеризации, но недавно я столкнулся с ситуацией, в которой мне нужны реализации как CluStream , так и DenStream (алгоритмы потоковой кластеризации), доступные в R и Java (есть некоторые реализации в Python от сообщества, но я уже попробовал их, и они не работают).
Дело в том, что я приходится сравнивать многие алгоритмы кластеризации, написанные на Python , и в качестве предварительного этапа я использовал хорошо известные scikit Learn наборы данных (чтобы показать, как алгоритмы обрабатывают неглобулярные кластеры - конечно, тогда я будуиспользовать данные временных рядов).
Теперь я хочу знать, если правильный способ попробовать эти алгоритмы R / Java и вычислить метрику, закодированную в Python ( DBCV )с результатами кластеризации R / Java ....
-> Итак, подводя итог, мне нужно сравнить множество алгоритмов (написанных на Python и R / Java) с использованием одинаковых наборов данных (которыеЯ подумал, что это может бытьв файлы CSV) и вычисление той же метрики достоверности (Python).
Любая помощь будет принята с благодарностью. Заранее спасибо!
РЕДАКТИРОВАТЬ : решение, с которым я столкнулся, заключается в следующем:
- Генерация игрушечных наборов данных с помощью sklearn и сохранение их вCSV-файлы
- Используйте различные алгоритмы кластеризации с этими наборами данных и сохраняйте также результаты кластеризации в CSV-файлы (не имеет значения, какой язык программирования используется)
- Разработайте другое приложение, которое:
- принимает решения по кластеризации, хранящиеся в файлах cvs
- вычисляет метрику и показывает результаты
ПОЖАЛУЙСТА, дайте мне знать, если вы найдете лучшийрешение!
Примечания :
- Я хочу попробовать этот пакет R: streamMOA
- Я ничего не знаю о R, и раньше я работал с Java (выбор, который я выберу, зависит от лучшего подхода к интеграции с Python)