Question

Я всегда использовал Python для кластеризации, но недавно я столкнулся с ситуацией, в которой мне нужны реализации как CluStream , так и DenStream (алгоритмы потоковой кластеризации), доступные в R и Java (есть некоторые реализации в Python от сообщества, но я уже попробовал их, и они не работают).

Дело в том, что я приходится сравнивать многие алгоритмы кластеризации, написанные на Python , и в качестве предварительного этапа я использовал хорошо известные scikit Learn наборы данных (чтобы показать, как алгоритмы обрабатывают неглобулярные кластеры - конечно, тогда я будуиспользовать данные временных рядов).

Теперь я хочу знать, если правильный способ попробовать эти алгоритмы R / Java и вычислить метрику, закодированную в Python ( DBCV )с результатами кластеризации R / Java ....

-> Итак, подводя итог, мне нужно сравнить множество алгоритмов (написанных на Python и R / Java) с использованием одинаковых наборов данных (которыеЯ подумал, что это может бытьв файлы CSV) и вычисление той же метрики достоверности (Python).

Любая помощь будет принята с благодарностью. Заранее спасибо!

РЕДАКТИРОВАТЬ : решение, с которым я столкнулся, заключается в следующем:

Генерация игрушечных наборов данных с помощью sklearn и сохранение их вCSV-файлы
Используйте различные алгоритмы кластеризации с этими наборами данных и сохраняйте также результаты кластеризации в CSV-файлы (не имеет значения, какой язык программирования используется)
Разработайте другое приложение, которое:
- принимает решения по кластеризации, хранящиеся в файлах cvs
- вычисляет метрику и показывает результаты

ПОЖАЛУЙСТА, дайте мне знать, если вы найдете лучшийрешение!

Примечания :

Я хочу попробовать этот пакет R: streamMOA
Я ничего не знаю о R, и раньше я работал с Java (выбор, который я выберу, зависит от лучшего подхода к интеграции с Python)

Anony-Mousse · Answer 1 · 10 ноября 2019

MOA - это программное обеспечение Java. Нет веских причин использовать его через R, если вы уже не находитесь в экосистеме R (которой вы не являетесь).
Вы можете записать данные в CSV и загрузить их в любом местеинструмент, который вам нравится
Эти наборы данных не являются потоками. Им не хватает всех трудностей и проблем потоков - простой подвыборки будет достаточно для определения структуры кластеризации. Выводы, сделанные из этих данных, бесполезны. Используйте реальные потоки данных, а не синтетические данные с последовательным порядком без .

Лучший способ получить результаты алгоритмов кластеризации R / Java (MOA) и обработать их с помощью Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Лучший способ получить результаты алгоритмов кластеризации R / Java (MOA) и обработать их с помощью Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы