У меня около 40 файлов. Каждый файл имеет формат табуляции:
A 5
B 10
C 95
D 43
E 22 * 1011 *
Некоторые файлы могут содержать несколько разных букв, а некоторые - одни и те же буквы (на самом деле это идентификаторы с комбинацией букв и цифр, а их тысячи). Количество букв отличается от файла к файлу. Каждой букве будет присвоено соответствующее значение (разделенное символом табуляции). Цель состоит в том, чтобы, в конце концов, сделать t-тест для всех букв между двумя группами образцов. И для этого мне нужен список всех значений, которые назначены букве A и букве B и т. Д., Для группы образцов 1 и для группы образцов 2, чтобы я мог выполнить свой t-тест из двух выборок. , Имена файлов имеют формат: ID (состоит из 2-3 чисел) -timepoint (1-4) -samplegroup (1-2). Мне нужно каким-то образом извлечь числа из каждого файла и получить код, различающий guish между двумя группами (1 или 2), и поместить их в список или что-то в этом роде, в соответствии с этим. Я рассматриваю возможность использования vscipy.stats.ttest_ind для t-теста.
Мой вопрос: как лучше всего его обработать? Можно ли загрузить все в словарь и просто напечатать его в файл?