У меня есть три фрейма данных (лес, сельское хозяйство и город), каждый из которых имеет 1 строку и 24145 столбцов (см. Пример внизу). Каждый столбец представляет другую молекулярную формулу, а значение в каждой ячейке соответствует относительному количеству этой формулы в образце (лес, сельское хозяйство и город).
Я пытаюсь найти лучший способ найдите, какие молекулярные формулы уникальны для каждого из трех приведенных выше образцов. Например, если у меня есть одна молекулярная формула (C10H10), которая имеет значение 0,12 для леса, но 0 для сельского хозяйства и города, я хочу иметь возможность получить конечный продукт, который показывает, что конкретная формула присутствует только в образце леса. .
В конечном итоге, я хочу затем построить график с этим конечным продуктом, где я могу нанести информацию о молекулярной формуле на оси (отношение кислорода к углероду на x и отношение водорода к углероду на y) и иметь отдельные точки на графике, соответствующие этим уникальным формулам, с цветовой кодировкой, чтобы обозначить, в каком образце они были однозначно найдены.
Заранее спасибо!
Маленький пример ввода с тремя отдельные фреймы данных объединены в один, называемый Образцами (на самом деле введено 24145 различных молекулярных формул, а не только 4, перечисленные здесь):
C10H10O3N1S0 C10H1004N1S0 C10H10O5N1S0 C10H10O5N1S1
Forest 0.00 1.44 0.00 0.00
Agriculture 0.00 0.00 1.11 4.94
Urban 1.29 0.00 1.33 0.00