Я новичок в анализе данных, и я работаю над некоторыми данными о численности видов, строки - это образцы, а столбцы - это виды. Поскольку данных довольно мало, большинство элементов равно нулю. Я хочу вычислить взаимодействия между каждыми двумя видами, и это требует, чтобы для каждых двух видов в моих данных существовала хотя бы одна выборка (строка), в которой вы можете найти их сосуществование (или оба больше 0).
Я думаю об удалении некоторых столбцов, чтобы мои данные удовлетворяли этому требованию. Подход в моей голове таков: для каждого вида я вычисляю количество видов, которые сосуществуют с ним, по крайней мере, в одном ряду (для простоты я называю их « взаимодействуют ») и сохраняю как P, и я сортирую виды в соответствии с их P , затем я удаляю виды от низкого до высокого в соответствии с их P , пока оставшиеся данные не удовлетворят моему требованию, чтобы каждые два видасосуществовать хотя бы в одном образце.
Я пробую этот подход прямо сейчас, но я думаю, что должен существовать более простой способ достичь этого. Я надеюсь, что вы можете поделиться своим мнением об этом. Большое спасибо за то, что уделили мне время на мой вопрос!