У меня есть текстовый лог-файл, содержащий строки данных, разделенных "|"
, например,
date | time | ip | geo-location (city) | page viewed ......
Мне нужно найти 10 наиболее часто встречающихся "просмотров страниц" в тексте.файл ....
каждый журнал просмотра страницы указан как:
//pageurl
, поскольку журнал находится на отдельных строках. Я предполагаю, что я буду искать URL страницы между
// [url name] \r\n
как бы я кодировал поиск, чтобы вывести список первых 10 URL-адресов и перечислить их в массив ....
например:
$url[0] <<this would be the most occuring url
$url[1] <<thos would be the second most occuring url
и т. Д...... пока я не смогу перечислить их до:
$url[9] <<which would be the 10th most common url
Я не уверен, как я буду искать между "//" и "\ r \ n"
и затем преобразовать 10 самых распространенных вхождений в массив ...
edit: вот 2х строк моих журналов, просто чтобы помочь еще больше, если я смогу
sunday, january 22, 2012 | 16:14:36 | 82.**.***.*** | bolton | //error
sunday, january 22, 2012 | 17:12:52 | 82.**.***.*** | bolton | //videos