Мне нужно разработать инструмент для извлечения данных из веб-журнала.
Имея много последовательностей URL-адресов, запрошенных в конкретном сеансе пользователя (извлеченных из журналов веб-приложений), мне нужно выяснить схемы использования и группы (кластеры) пользователей веб-сайта.
Я новичок в Data Mining, и сейчас много изучаю Google.
Нашел некоторую полезную информацию, например, запрос Частое использование шаблонов в данных веб-журнала , по-видимому, указывает практически на подобные исследования.
Итак, мои вопросы:
- Существуют ли инструменты на основе Python, которые делают то, что мне нужно, или, по крайней мере, что-то подобное?
- Может ли Оранжевый инструментарий помочь?
- Может ли чтение книги Программирование Коллективного разума быть полезным?
- Зачем Google, что читать, какие относительно простые алгоритмы лучше всего использовать?
Я очень ограничен во времени (примерно до недели), поэтому любая помощь будет чрезвычайно ценной. Что мне нужно, так это указать мне правильное направление и дать совет о том, как выполнить задачу в кратчайшие сроки.
Заранее спасибо!