Я перебираю файл журнала доступа, пытаясь найти все строки, которые имеют уникальные файлы, к которым были запрошены и получены доступ.Мой файл журнала имеет следующий формат:
66.249.75.4 - - [14/Dec/2015:08:25:18 -0600] "GET /robots.txt HTTP/1.1" 404 1012 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
66.249.75.4 - - [14/Dec/2015:08:25:18 -0600] "GET /~robert/class2.cgi HTTP/1.1" 404 1012 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
(so on and so forth...)
Моя цель - найти любую из этих 14 000+ строк, которые обращались к уникальному файлу ("GET / etc... etc..."
) с веб-сервера, и подсчитать, сколько из нихприсутствуют.Я хочу избавиться от любого из этих вызовов, которые обращались к той же странице, и считать только те, которые не являются дубликатами.Я очень плохо знаком с командной строкой Linux, и я работаю над знакомством с некоторыми из этих команд и их способностями.
Я пытался попробовать это с grep
, отправляя cat
вsort -k 7 -u
, uniq
и несколько других.Ничто из этого не дает мне ожидаемого результата.