В принципе, данные микрочипов могут быть выражены (прошу прощения за каламбур) в виде матрицы с образцами в виде столбцов и строк в виде генов. На практике гораздо сложнее получить такое представление для необработанных данных эксперимента. Если вы просто получаете предварительно обработанный набор данных, у вас мало гарантий, что необработанные данные были обработаны таким образом, чтобы их можно было сравнить с другими экспериментами или чтобы исходные исходные данные были достаточно высокого качества.
Вам также понадобятся высококачественные метаданные, чтобы получить какое-либо значение из матрицы данных. Каковы были биологические условия и источники, из которых были получены образцы? Каким генам соответствуют зонды на конкретном используемом массиве? (Обратите внимание, что 9890_at - это «идентификатор набора зондов», уникальный идентификатор молекулярного зонда определенной конструкции последовательности, который затем необходимо сопоставить с геном, разные зонды для одного и того же гена не дадут абсолютно одинаковый ответ.)
Таким образом, общедоступные базы данных микромассивов предоставляют много дополнительной информации в дополнение к обработанной матрице данных. В дополнение к GEO , который уже был упомянут, я бы порекомендовал ArrayExpress , который, по моему мнению, имеет лучший интерфейс поиска.
Инструментом выбора для работы с данными микрочипов для многих является биокондуктор набор программного обеспечения для языка статистического программирования R .
Bioconductor предоставляет API для загрузки необработанных данных с сопутствующими метаданными из обоих репозиториев, см. биокомплекс GEO и биокомплекс ArrayExpress .
Оба пакета, как и большинство программных продуктов для биокондуктора, поставляются с отличными «виньетками», которые представляют программное обеспечение:
GEO bioc виньетка и
Arrayexpress bioc виньетка
Эти виньетки также должны давать вам примеры получения необработанных данных и получения "Esets" (наборов выражений) из необработанных данных. В этот момент вы можете получить доступ к матрице экспрессии гена в объекте Eset биокондуктора, и у вас есть объект и API для опроса необходимых метаданных.
Обратите внимание, что существуют разные типы микрочипов. Я бы порекомендовал начать с данных из массивов Affymetrix, поскольку они, вероятно, имеют самые простые API анализа.