Как проверить кластер (anylsis) для больших данных (экспрессия генов) - PullRequest
0 голосов
/ 15 мая 2019

Здравствуйте, я новичок здесь, я надеюсь, что я все правильно ввел, и этот вопрос находится на правильном форуме.Кроме того, я проверял ранее, и ни один предыдущий вопрос, похоже, не сопоставим с этим.

На мой вопрос: в настоящее время я работаю над проверкой кластерных методов с использованием пакета clValid.Сейчас мой набор данных, с которым я работаю, очень большой (от 1000 до 25 000), это генные выражения.Теперь вопрос в том, какие методы проверки наборов данных больших размеров вообще ставятся под сомнение.Может быть, есть другой пакет для проверки кластеризации в пространстве с высоким димеснионом.Должен ли я сделать PCA раньше?насколько большим может быть мой набор данных, чтобы я мог использовать на нем clValdi (я не хочу, чтобы мой компьютер работал часами, или я должен просто запустить его и ждать результата с небольшим набором данных 100x500), я благодарен за каждыйПредложение может быть есть решения, о которых я еще не думал.

clValid

1 Ответ

0 голосов
/ 16 мая 2019

Я бы предпочел , а не полагаться на любой из этих индексов.

  1. Эти меры обычно требуют, чтобы кластеры были полными и непересекающимися, и это не выполняется для типичных биокластеров Гена.Есть гены, которые не участвуют ни в одном из эффектов, наблюдаемых в эксперименте
  2. Меры, которые мы обычно разрабатываем с учетом низкоразмерных гауссовых данных , и как только у вас появятся такие высокоразмерные данныетам, где все расстояния большие, они измеряют, что между кластерами нет контраста (потому что их мера не видит контраст между любыми двумя точками данных

Боюсь, что вам может потребоваться оценка по комплексным, доменнымспецифический анализ.

...