Сортировка текстового файла и удаление дубликатов - PullRequest
1 голос
/ 06 июля 2010

У меня большой текстовый файл с 4-значными кодами и информацией о них в каждой строке.Это выглядит примерно так:

3456 information
1234 info
2222 Some ohter info

Мне нужно отсортировать этот файл, чтобы коды были в порядке возрастания в файле.Кроме того, некоторые коды появляются более одного раза, поэтому мне нужно удалить дубликаты.Могу ли я сделать это с помощью Perl, AWK или другого языка сценариев?

Заранее спасибо,

-скажи

Ответы [ 2 ]

4 голосов
/ 06 июля 2010
sort happybirthday.txt | uniq

С IBM .

1-й результат для Google: unix remove duplicate lines.

0 голосов
/ 06 июля 2010

Вы можете создать хеш, затем прочитать файл построчно и для каждой строки

  • разделить на первый пробел
  • проверить, есть ли в хэше val (0), число, которое вы только что разделили
  • если нет, вставьте значение val (1), оставшуюся часть строки, в хеш с ключом val (0)
  • продолжение

Затем выведите (отсортированный) хеш в файл.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...