Нормально ли получать разные графики для одних и тех же данных после umap? - PullRequest
0 голосов
/ 11 декабря 2019

Я не уверен, как я могу описать все шаги, которые я делаю, но в основном мой вопрос прост: я использую тот же код, те же данные из текстового файла, собираю некоторую статистику об этих данных и затем использую umap для 2D-сокращения.

Нормально ли иметь разные графики при построении графика?

Я использую scikit-learn, umap-learn, ggplot2.

продолжение проблемы, когда я использую hdbscan. Поскольку каждый раз, когда я запускаю код, график отличается, размер кластера и кластеры становятся разными и так далее. Мне интересно, если это что-то ожидаемое или нет, в основном.

1 Ответ

2 голосов
/ 11 декабря 2019

Да, это так. Алгоритмы уменьшения размеров, такие как tSNE и uMAP, являются стохастическими, поэтому каждый раз, когда вы запускаете кластеризацию, значения будут отличаться. Если вы хотите сохранить тот же график, вам нужно установить общее начальное число. Вы можете добиться этого в R, установив начальное значение (например, set.seed(123)) перед вызовом uMAP (или установить флаг, если функция это позволяет). np.random.seed(123) должно работать в Python Scikit.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...