У меня есть два файла .csv, содержащие матрицы корреляции, экспортированные из R. Один файл содержит P-значения, а другой - r-значения.Заголовки строк и столбцов точно совпадают между двумя файлами.
Я пытаюсь извлечь значения r и соответствующий заголовок строки и столбца для пар, только когда значение P <0,05.Вот пример того, как выглядят данные во входном файле r-значения (у меня 1700+ коррелированных элементов, а не только два показанных): </p>
Species1 Species2
Species1 1 0.9
Species2 0.9 1
Входной файл P-значения идентиченЗа исключением того, что вместо значений r содержатся значения P.
Я относительно новичок в Python и не уверен, как обращаться с файлами этого типа.Я попробовал несколько стратегий, в том числе использование библиотеки csv для перебора файлов.Я посмотрел на использование NumPy, но не похоже, что это будет работать для меня (?).Я также изучил использование scipy для вычисления r- и P-значений (Pearsons) в Python, но, похоже, это работает только для сравнения двух одномерных массивов (у меня есть 1700+ столбцов данных для корреляции).
Код, с которого я начинаю, чтобы показать вам, что я импортировал:
import csv
infileP = open('AllcorrP.csv', 'rU')
infileR = open('AllcorrR.csv', 'rU')
Вопрос Может ли кто-нибудь помочь мне извлечь заголовки столбцов и строк и значения r из моего r-файл значений, основанный на значимых (<0,05) P-значениях из моего файла p-значений? </p>
ИЛИ
Рассчитать r- и P-значения для всех возможных корреляциймежду многими столбцами данных напрямую с использованием Python и извлекать только результаты со значительными P-значениями?
В конце я хотел бы получить вывод в двух файлах.
Первый файл:
Species1 Species2 Species4 ...
Species2 Species1 Species7 ...
и т. Д. (Где «Вид 1» - это первый вид со значительными корреляциями, а следующие элементы в строке - это виды, с которыми он значительно коррелирует (Виды 2, Виды 4 и т. Д.)
Второй файл:
Species1 (corr) Species2 = 0.87
Species2 (corr) Species7 = 0.72
...
и т. Д.,которая показывает каждую попарную корреляцию и значение r, которое идет с ней
На данный момент, я был бы рад просто иметь возможность извлечь список значений r и видов, которые я хочу, и выяснить,окончательное форматирование двух файлов позже.Спасибо!