Использование GREP для поиска списка генов (около 200) в текстовом файле с разделителями во вкладке exome - PullRequest
0 голосов
/ 02 февраля 2020

Я хотел бы извлечь все строки, содержащие интересующие гены, из очень большого exome-файла (txt с разделителями-табуляциями).

Это не практично для GREP их по отдельности, поэтому я решил поместить их в текстовый файл в виде списка и используйте следующую команду.

grep -E Gene_list.txt Sample1_GREP.txt > Output.txt

Это занимает много времени, чтобы перебрать, и я попробовал другие альтернативы, но не нашел решения.

1 Ответ

0 голосов
/ 05 февраля 2020

200 паттернов для grep невелики. Попробуйте GNU grep (иногда ggrep), который работает быстрее, чем BSD grep. Также используйте tr для перевода Gene_list.txt разделителей табуляции на новые строки:

tr '\t' '\n' < Gene_list.txt | ggrep -F -f - Sample1_GREP.txt > Output.txt
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...