Объединение множества файлов с разной организацией и разными общими значениями - PullRequest
0 голосов
/ 09 мая 2019

Я загрузил 100 наборов данных по экспрессии генов из NCBI GEO и связал все возможные аннотации с каждым. Каждый файл состоит из строк, которые представляют собой гены и столбцы различных аннотаций, а затем данных выражения. Однако, поскольку все они происходят из разных источников и платформ, нет единого способа их маркировки. Некоторые используют имя гена (например, yfgA), в то время как другие используют стандартное имя (например, b1029), в то время как другие используют совершенно разные соглашения об именах. Организация и наименование столбцов аннотаций также различаются в разных файлах.

Я хотел бы объединить все файлы вместе, чтобы у меня были значения экспрессии гена для всех экспериментов для каждого гена, но поскольку аннотации повсюду, традиционные методы слияния или объединения в R или python не кажутся они будут работать на меня. Это также займет много времени, чтобы сделать это индивидуально, поэтому я хотел бы каким-то образом автоматизировать его (так как у меня есть еще 10 000 файлов, ожидающих, чтобы сделать это также).

Мне нужен файл, в котором строки - это каждый ген, в столбцах - разные возможные аннотации, а затем все данные о экспрессии гена.

Любая помощь или совет будет очень признателен!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...