Есть ли способ оценить сходство между участками TSNE в python? - PullRequest
0 голосов
/ 20 января 2020

Я хотел знать, был ли способ оценить сходство или это невозможно из-за случайного характера того, как эти графики генерируются? Я провел некоторое исследование и нашел венгерский алгоритм назначения для отображения точек с одного графика на другой, но не уверен, как его применить / если это правильный подход.

Также есть способ построить два набора данных при тех же условиях TSNE - ie если у меня есть df с двумя наборами данных, объединенными в один, а затем каким-то образом отделить это в конце, чтобы показать на разных графиках, но в одном и том же пространстве внедрения x, y?

1 Ответ

1 голос
/ 21 января 2020
  1. Если они являются одинаковыми точками, которые встраиваются в оба графика - один из вариантов может заключаться в том, чтобы пометить каждую точку своей ближайшей группой на каждом внедрении / графике tsne, что вы можете сделать запустив алгоритм кластеризации / k-ближайших соседей для вложений. После того, как у вас есть эти два набора меток для точек, вы можете использовать скорректированный рейтинг рандов , чтобы сравнить сходство этих меток, то есть определить, были ли точки назначены сходным группам / кластерам между двумя вложениями tsne.
  2. Заранее извиняюсь, если я не полностью понял ваш второй вопрос - я думаю, это зависит от того, что вы действительно хотите показать, делая это. Если вы запустите tsne на общем фрейме данных, вы можете «разделить» их, по-разному раскрасив два набора данных на графике. Результат этих графиков / вложений, очевидно, был бы другим, если бы вы выполняли tsne на каждом кадре данных отдельно - вы можете хранить параметры и устанавливать случайное начальное число одинаковым, но из-за недетерминированности c природы tsne, я полагаю не думаю, что имеет смысл сравнивать «пространство вложения x, y» двух прогонов.
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...