Поиск и подсчет уникальных файлов, доступных на веб-сервере - PullRequest
0 голосов
/ 22 октября 2018

Я перебираю файл журнала доступа, пытаясь найти все строки, которые имеют уникальные файлы, к которым были запрошены и получены доступ.Мой файл журнала имеет следующий формат:

66.249.75.4 - - [14/Dec/2015:08:25:18 -0600] "GET /robots.txt HTTP/1.1" 404 1012 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.4 - - [14/Dec/2015:08:25:18 -0600] "GET /~robert/class2.cgi HTTP/1.1" 404 1012 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
(so on and so forth...)

Моя цель - найти любую из этих 14 000+ строк, которые обращались к уникальному файлу ("GET / etc... etc...") с веб-сервера, и подсчитать, сколько из нихприсутствуют.Я хочу избавиться от любого из этих вызовов, которые обращались к той же странице, и считать только те, которые не являются дубликатами.Я очень плохо знаком с командной строкой Linux, и я работаю над знакомством с некоторыми из этих команд и их способностями.

Я пытался попробовать это с grep, отправляя cat вsort -k 7 -u, uniq и несколько других.Ничто из этого не дает мне ожидаемого результата.

1 Ответ

0 голосов
/ 22 октября 2018

Если вы ищете только количество, вы можете использовать:

cut -d' ' -f6-7 logs.txt  | sort -u | wc -l
...