Как исправить файл с разделителями табуляции, если вкладок слишком много? - PullRequest
0 голосов
/ 18 марта 2020

У меня есть этот текстовый файл, который должен быть разделен табуляцией, за исключением того, что в паре полей вместо табуляции есть табуляция, что затрудняет извлечение нужных мне данных. Он слишком большой, чтобы исправить его вручную, поэтому мне нужно какое-либо решение.

Столбцы ДОЛЖНЫ выглядеть примерно так:

A\tB\tC\tsome info\tGO:123\t

Но иногда я получаю следующее:

A\tB\tC\tsome\tinfo\tGO:123\t

И столбец "некоторая информация" может быть любым, поэтому я не могу просто заменить. То, что должно быть в столбце 5, всегда начинается с «GO:», а столбцы 1, 2 и 3 всегда правильные. Именно эта четвертая колонка усложняет ситуацию. Есть идеи?

1 Ответ

0 голосов
/ 18 марта 2020

Регулярное выражение:

(A)\\t(B)\\t(C)\\t(.*)?\\t(GO:123)\\t

Получить группы 1,2,3,4. У вас есть some data с вкладкой и без в группе 4.

...