Вычисление одного t-теста из разных файлов - PullRequest
0 голосов
/ 20 января 2020

У меня около 40 файлов. Каждый файл имеет формат табуляции:

A 5

B 10

C 95

D 43

E 22 * ​​1011 *

Некоторые файлы могут содержать несколько разных букв, а некоторые - одни и те же буквы (на самом деле это идентификаторы с комбинацией букв и цифр, а их тысячи). Количество букв отличается от файла к файлу. Каждой букве будет присвоено соответствующее значение (разделенное символом табуляции). Цель состоит в том, чтобы, в конце концов, сделать t-тест для всех букв между двумя группами образцов. И для этого мне нужен список всех значений, которые назначены букве A и букве B и т. Д., Для группы образцов 1 и для группы образцов 2, чтобы я мог выполнить свой t-тест из двух выборок. , Имена файлов имеют формат: ID (состоит из 2-3 чисел) -timepoint (1-4) -samplegroup (1-2). Мне нужно каким-то образом извлечь числа из каждого файла и получить код, различающий guish между двумя группами (1 или 2), и поместить их в список или что-то в этом роде, в соответствии с этим. Я рассматриваю возможность использования vscipy.stats.ttest_ind для t-теста.

Мой вопрос: как лучше всего его обработать? Можно ли загрузить все в словарь и просто напечатать его в файл?

...