Question

Мне нужно получить уникальные URL-адреса из веб-журнала, а затем отсортировать их. Я думал об использовании команд grep, uniq, sort и вывод их в другой файл

Я выполнил эту команду:

cat access.log | awk '{print $7}' > url.txt

тогда только получите уникальный и отсортируйте их:

cat url.txt | uniq | sort > urls.txt

Проблема в том, что я вижу дубликаты, даже если файл отсортирован, что означает, что моя команда сработала. Почему?

mouviciel · Answer 1 · 17 ноября 2011

uniq | sort не работает: uniq удаляет смежные дубликаты.

Правильный путь sort | uniq или лучше sort -u.

William Pursell · Answer 2 · 17 ноября 2011

uniq нужно отсортировать ввод, но вы отсортировали после uniq. Попробуйте:

$ sort -u < url.txt > urls.txt

Pankaj Garg · Answer 3 · 05 июня 2018

Для журналов доступа nginx это дает уникальные вызываемые URL:

 sed -r "s/.*(GET|POST|PUT|DELETE|HEAD) (.*?) HTTP.*/\2/" /var/log/nginx/access.log | sort | uniq -u

Ссылка: https://www.guyrutenberg.com/2008/08/10/generating-url-list-from-access-log-access_log/

сортировать уникальные URL из журнала

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

сортировать уникальные URL из журнала

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы