Я работаю над разными видами, и, следовательно, геномы имеют разные размеры.
Я использовал скрипт повторной выборки, который работал нормально, но мне было интересно, могу ли я использовать его с пропорциями вместо координат. Я объясню:
У 1 вида у меня будет другой размер хромосомы (идеограммы), причем некоторые из них намного больше других. При построении гистограмм или их эквивалентов я хотел бы разделить каждую хромосому на 100 (например), чтобы каждая идеограмма имела одинаковое количество бинов (или точку, если я делаю линейные графики). Есть ли способ сделать это легко?
Вот некоторые данные:
1) Кариотип
chr - Atau1 1 0 502330000 lgrey
chr - Atau2 2 0 651661000 lgrey
chr - Atau3 3 0 627183000 lgrey
chr - Atau4 4 0 526019000 lgrey
chr - Atau5 5 0 577376000 lgrey
chr - Atau6 6 0 496020000 lgrey
chr - Atau7 7 0 644716000 lgrey
2) Что я хочу построить:
a) Необработанные данные
Atau1 13496210 13510315 1
Atau1 14639943 14654371 1
Atau1 27419549 27432325 1
Atau1 27721681 27738203 1
Atau1 29990711 30002834 1
Atau1 31055516 31069971 1
Atau1 33138240 33150504 1
b) Повторная выборка с помощью скрипта повторной выборки
Я использовал команду:
~/Downloads/circos-tools-0.23/tools/resample/bin/resample -bin 10e6 -count > atau_SVs_resample.txt
Здесь ячейки имеют размер 10 Мбайт
Atau1 0 9999999 1
Atau1 10000000 19999999 6
Atau1 20000000 29999999 4
Atau1 30000000 39999999 4
Atau1 40000000 49999999 6
Atau1 60000000 69999999 7
Atau1 70000000 79999999 8
Atau1 80000000 89999999 6
И последнее замечание: поскольку я делю свои хромосомы на расстояния, часто последние ячейки не отображаются на графике, потому что они выходят за пределы длины хромосомы, поэтому деление хромосомы на определенное значение c число также улучшит это!
Спасибо за вашу помощь!