Где я могу скачать данные генной экспрессии? - PullRequest
8 голосов
/ 23 марта 2012

Я хотел скачать данные по экспрессии генов, полученные из экспериментов с микрочипами. я не знаю слишком много об этом предмете, но, как я понимаю, строки часто соответствуют генам, а столбцы соответствуют образцам. в идеале я ожидаю матрицу данных по экспрессии генов.

Я искал в Интернете, и, хотя может показаться, что есть много мест для загрузки таких данных, когда я действительно загружаю данные, я не получаю матрицу экспрессии генов. Может кто-нибудь, пожалуйста, дайте мне знать, если есть место или как загрузить данные экспрессии генов в формате, который я ожидаю выше?

любая помощь приветствуется.

Ответы [ 2 ]

6 голосов
/ 23 марта 2012

Если вы посмотрите, например, на эта запись в Omnibus * Gene Expression , один из форматов файлов - "TXT" и содержит матрицу, которую вы запрашиваете после некоторых метаданных.

5 голосов
/ 23 марта 2012

В принципе, данные микрочипов могут быть выражены (прошу прощения за каламбур) в виде матрицы с образцами в виде столбцов и строк в виде генов. На практике гораздо сложнее получить такое представление для необработанных данных эксперимента. Если вы просто получаете предварительно обработанный набор данных, у вас мало гарантий, что необработанные данные были обработаны таким образом, чтобы их можно было сравнить с другими экспериментами или чтобы исходные исходные данные были достаточно высокого качества.

Вам также понадобятся высококачественные метаданные, чтобы получить какое-либо значение из матрицы данных. Каковы были биологические условия и источники, из которых были получены образцы? Каким генам соответствуют зонды на конкретном используемом массиве? (Обратите внимание, что 9890_at - это «идентификатор набора зондов», уникальный идентификатор молекулярного зонда определенной конструкции последовательности, который затем необходимо сопоставить с геном, разные зонды для одного и того же гена не дадут абсолютно одинаковый ответ.)

Таким образом, общедоступные базы данных микромассивов предоставляют много дополнительной информации в дополнение к обработанной матрице данных. В дополнение к GEO , который уже был упомянут, я бы порекомендовал ArrayExpress , который, по моему мнению, имеет лучший интерфейс поиска.

Инструментом выбора для работы с данными микрочипов для многих является биокондуктор набор программного обеспечения для языка статистического программирования R .

Bioconductor предоставляет API для загрузки необработанных данных с сопутствующими метаданными из обоих репозиториев, см. биокомплекс GEO и биокомплекс ArrayExpress .

Оба пакета, как и большинство программных продуктов для биокондуктора, поставляются с отличными «виньетками», которые представляют программное обеспечение: GEO bioc виньетка и Arrayexpress bioc виньетка

Эти виньетки также должны давать вам примеры получения необработанных данных и получения "Esets" (наборов выражений) из необработанных данных. В этот момент вы можете получить доступ к матрице экспрессии гена в объекте Eset биокондуктора, и у вас есть объект и API для опроса необходимых метаданных.

Обратите внимание, что существуют разные типы микрочипов. Я бы порекомендовал начать с данных из массивов Affymetrix, поскольку они, вероятно, имеют самые простые API анализа.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...