Python, интеллектуальный анализ данных журнала для частых паттернов - PullRequest
4 голосов
/ 28 мая 2010

Мне нужно разработать инструмент для извлечения данных из веб-журнала.

Имея много последовательностей URL-адресов, запрошенных в конкретном сеансе пользователя (извлеченных из журналов веб-приложений), мне нужно выяснить схемы использования и группы (кластеры) пользователей веб-сайта.

Я новичок в Data Mining, и сейчас много изучаю Google. Нашел некоторую полезную информацию, например, запрос Частое использование шаблонов в данных веб-журнала , по-видимому, указывает практически на подобные исследования.

Итак, мои вопросы:

  1. Существуют ли инструменты на основе Python, которые делают то, что мне нужно, или, по крайней мере, что-то подобное?
  2. Может ли Оранжевый инструментарий помочь?
  3. Может ли чтение книги Программирование Коллективного разума быть полезным?
  4. Зачем Google, что читать, какие относительно простые алгоритмы лучше всего использовать?

Я очень ограничен во времени (примерно до недели), поэтому любая помощь будет чрезвычайно ценной. Что мне нужно, так это указать мне правильное направление и дать совет о том, как выполнить задачу в кратчайшие сроки.

Заранее спасибо!

Ответы [ 2 ]

3 голосов
/ 28 мая 2010

1 & 2: Оранжевый имеет частый модуль интеллектуального анализа. Он также поддерживает кластеризацию.

3.Я только что проверил содержание книги. Нет главы для частого майнинга паттернов. В любом случае, это хорошая книга для начинающих в области интеллектуального анализа данных. Вы найдете это очень полезным, чтобы помочь вам точно определить вашу проблему.

4.Вы должны понимать вход и выход кластеризации, частого анализа шаблонов / анализа правил ассоциации. Так что Google эти алгоритмы, или найти хороший учебник для интеллектуального анализа данных для чтения.

1 голос
/ 24 февраля 2011

Модуль Pattern может быть тем, что вы ищете. http://www.clips.ua.ac.be/pages/pattern

...