Основными параметрами, которые я использую для создания umap, являются min_dist, a и b. Я установил min_dist = 0.5, a = 1, b = 1, что изначально дает значимое низкоразмерное представление для большинства наборов данных, когда используются все функции (примерно от 10 до 30 тысяч функций). Но когда я уменьшаю количество функций данных с помощью метода выбора функций (выбирается 200-500 функций), тогда низкоразмерное представление umap больше не показывает никакого смысла (например, - оно становится очень разреженным и вязким) . Затем мне нужно продолжить настройку параметров, чтобы 2D-визуализация имела смысл.
Есть ли какой-либо способ преодолеть необходимость ручной настройки и обобщить значения параметров в соответствии с количеством выбранных функций?
PS - Я не изучаю математику и имею «очень» смутное представление о том, как работает umap. Сам алгоритм не реализовал. Я использую функцию RunUMAP пакета seurat для данных с одной ячейкой.