Question

Мне нужно разработать инструмент для извлечения данных из веб-журнала.

Имея много последовательностей URL-адресов, запрошенных в конкретном сеансе пользователя (извлеченных из журналов веб-приложений), мне нужно выяснить схемы использования и группы (кластеры) пользователей веб-сайта.

Я новичок в Data Mining, и сейчас много изучаю Google. Нашел некоторую полезную информацию, например, запрос Частое использование шаблонов в данных веб-журнала , по-видимому, указывает практически на подобные исследования.

Итак, мои вопросы:

Существуют ли инструменты на основе Python, которые делают то, что мне нужно, или, по крайней мере, что-то подобное?
Может ли Оранжевый инструментарий помочь?
Может ли чтение книги Программирование Коллективного разума быть полезным?
Зачем Google, что читать, какие относительно простые алгоритмы лучше всего использовать?

Я очень ограничен во времени (примерно до недели), поэтому любая помощь будет чрезвычайно ценной. Что мне нужно, так это указать мне правильное направление и дать совет о том, как выполнить задачу в кратчайшие сроки.

Заранее спасибо!

Yin Zhu · Answer 1 · 28 мая 2010

1 & 2: Оранжевый имеет частый модуль интеллектуального анализа. Он также поддерживает кластеризацию.

3.Я только что проверил содержание книги. Нет главы для частого майнинга паттернов. В любом случае, это хорошая книга для начинающих в области интеллектуального анализа данных. Вы найдете это очень полезным, чтобы помочь вам точно определить вашу проблему.

4.Вы должны понимать вход и выход кластеризации, частого анализа шаблонов / анализа правил ассоциации. Так что Google эти алгоритмы, или найти хороший учебник для интеллектуального анализа данных для чтения.

Satish · Answer 2 · 24 февраля 2011

Модуль Pattern может быть тем, что вы ищете. http://www.clips.ua.ac.be/pages/pattern

Python, интеллектуальный анализ данных журнала для частых паттернов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Python, интеллектуальный анализ данных журнала для частых паттернов

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы