Выберите строки со словами, существующими в другой таблице - PullRequest
0 голосов
/ 04 апреля 2020

Есть два файла. В одном у меня есть несколько идентификаторов генов, где первые строки выглядят так:

gene IDs

Другой файл содержит уровень экспрессии для всех генов, а не только тех, которые присутствуют в предыдущий файл:

expression

Вопрос: как извлечь из второго файла (с уровнями экспрессии) только r aws, что содержит имена генов из первого файла ?

Я понимаю, что это должно быть что-то в grep, но как использовать всю таблицу в качестве ключа, а не один столбец, я не знаю. Или, возможно, вы знаете, как поместить все слова из файла идентификаторов генов с разделителями табуляции в один столбец?

Я могу работать в bash, R и Excel. Заранее большое спасибо!

1 Ответ

0 голосов
/ 04 апреля 2020

Это зависит от формата вашего файла, но это должно работать.

ids = scan("id.csv", sep = ",")
expression.df = read.csv("expression.csv")

expression[expression$x %in% ids, ]
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...