bash sort игнорирует не-буквенные символы - PullRequest
1 голос
/ 13 января 2012

Я пытаюсь извлечь список уникальных тегов из текстового файла с тегами.Теги ограничены угловыми скобками, и каждое имя тега начинается с двоеточия: <:ttx>, <ol_2> и т. Д.

Я начал с добавления разрыва строки после каждого >, затем попытался sort.Результаты сбивали меня с толку, пока я не понял, что sort игнорирует первые два символа.

Нужно ли добавить переключатель, или мой bash со вкусом Bbuntu собирается на sort -d без опции?

1 Ответ

9 голосов
/ 17 января 2012

используйте LANG=C для отключения вашей локали => sort обычно работает лучше:

grep -o '<:[A-Za-z0-9]>' your-tagged-text-file | LANG=C sort
...