Лучший способ получить результаты алгоритмов кластеризации R / Java (MOA) и обработать их с помощью Python - PullRequest
0 голосов
/ 08 ноября 2019

Я всегда использовал Python для кластеризации, но недавно я столкнулся с ситуацией, в которой мне нужны реализации как CluStream , так и DenStream (алгоритмы потоковой кластеризации), доступные в R и Java (есть некоторые реализации в Python от сообщества, но я уже попробовал их, и они не работают).

Дело в том, что я приходится сравнивать многие алгоритмы кластеризации, написанные на Python , и в качестве предварительного этапа я использовал хорошо известные scikit Learn наборы данных (чтобы показать, как алгоритмы обрабатывают неглобулярные кластеры - конечно, тогда я будуиспользовать данные временных рядов).

Теперь я хочу знать, если правильный способ попробовать эти алгоритмы R / Java и вычислить метрику, закодированную в Python ( DBCV )с результатами кластеризации R / Java ....

-> Итак, подводя итог, мне нужно сравнить множество алгоритмов (написанных на Python и R / Java) с использованием одинаковых наборов данных (которыеЯ подумал, что это может бытьв файлы CSV) и вычисление той же метрики достоверности (Python).

Любая помощь будет принята с благодарностью. Заранее спасибо!


РЕДАКТИРОВАТЬ : решение, с которым я столкнулся, заключается в следующем:

  • Генерация игрушечных наборов данных с помощью sklearn и сохранение их вCSV-файлы
  • Используйте различные алгоритмы кластеризации с этими наборами данных и сохраняйте также результаты кластеризации в CSV-файлы (не имеет значения, какой язык программирования используется)
  • Разработайте другое приложение, которое:
    • принимает решения по кластеризации, хранящиеся в файлах cvs
    • вычисляет метрику и показывает результаты

ПОЖАЛУЙСТА, дайте мне знать, если вы найдете лучшийрешение!


Примечания :

  • Я хочу попробовать этот пакет R: streamMOA
  • Я ничего не знаю о R, и раньше я работал с Java (выбор, который я выберу, зависит от лучшего подхода к интеграции с Python)

1 Ответ

1 голос
/ 10 ноября 2019
  1. MOA - это программное обеспечение Java. Нет веских причин использовать его через R, если вы уже не находитесь в экосистеме R (которой вы не являетесь).

  2. Вы можете записать данные в CSV и загрузить их в любом местеинструмент, который вам нравится

  3. Эти наборы данных не являются потоками. Им не хватает всех трудностей и проблем потоков - простой подвыборки будет достаточно для определения структуры кластеризации. Выводы, сделанные из этих данных, бесполезны. Используйте реальные потоки данных, а не синтетические данные с последовательным порядком без .

...