Question

Я знаю, что это не связано с программированием, но я надеюсь, что некоторые отзывы помогут мне избавиться от страданий.

На самом деле у нас много разных данных из наших веб-приложений, датированных много лет назад.

Например, у нас есть

лог-файлы Apache
Файлы ежедневной статистики из нашего программного обеспечения для отслеживания (CSV)
Еще одна ежедневная статистика из общенационального рейтинга рекламы (CSV)
.. и я, вероятно, могу также получать новые данные из других источников.

Некоторые записи данных начались в 2005 году, некоторые в 2006 году и т. Д. Однако в какой-то момент времени мы начинаем получать данные обо всех из них.

Что я задумала ^ H ^ H ^ H ^ Поиск - это приложение, которое понимает все данные, позволяет загружать их, сравнивать отдельные наборы данных и временные шкалы (графически), сравнивать различные наборы данных в течение одного промежутка времени Позвольте мне фильтровать (особенно файл журнала Apache); и, конечно, все это должно быть в интерактивном режиме.

Только сжатые BZ2 файлы журналов Apache уже составляют 21 ГБ, увеличиваясь в неделю.

У меня не было реального успеха с такими вещами, как awstats, Nihu Web Log Analyzer или аналогичными инструментами. Они могут просто генерировать статическую информацию, но мне нужно было бы интерактивно запрашивать информацию, применять фильтры, накладывать другие данные и т. Д.

Я также пробовал инструменты для извлечения данных в надежде, что они могут мне помочь, но на самом деле им не удалось их использовать (т. Е. Они над моей головой), например RapidMiner.

Просто чтобы убедиться: это может быть коммерческим приложением. Но все же нужно найти что-то, что действительно полезно .

Почему-то у меня складывается впечатление, что я ищу что-то, чего не существует или у меня неправильный подход. Любые советы приветствуются.

Обновление:

В конце концов это была смесь следующих вещей:

написал сценарии bash и PHP для анализа и управления файлами журналов, включая множество возможностей фильтрации
генерирует простой старый CSV-файл для чтения в Excel. Мне повезло использовать Excel 2007, и его графические возможности, хотя все еще работают с фиксированным набором данных, очень помогли
Я использовал Amazon EC2 для запуска сценария и отправки мне CSV по электронной почте. Мне пришлось пролистать около 200 ГБ данных и, таким образом, использовать один из больших экземпляров для распараллеливания анализа. Мне пришлось выполнить множество попыток синтаксического анализа, чтобы получить правильные данные, общая продолжительность обработки составила 45 минут. Я не знаю, что я мог бы сделать без Amazon EC2. Это стоило каждого доллара, за который я заплатил.

Miguel A. Friginal · Answer 1 · 06 сентября 2009

ПО для анализа данных с открытым исходным кодом и веб-анализа RapidMiner может импортировать как файлы журнала веб-сервера Apache, так и файлы CSV, а также импортировать и экспортировать листы Excel. Rapid-I предлагает множество учебных курсов для RapidMiner, некоторые также по веб-майнингу и веб-майнингу.

Arthur Ulfeldt · Answer 2 · 15 апреля 2009

Splunk - продукт для такого рода вещей. Я не использовал это сам, хотя. http://www.splunk.com/

Aaron Digulla · Answer 3 · 27 апреля 2009

То, что вы ищете, - это «инфраструктура интеллектуального анализа данных», то есть то, что с радостью съедает гигабайты несколько случайных данных, а затем позволяет порезать и найти это еще неизвестным образом, чтобы найти золотые самородки, спрятанные глубоко внутри. статики.

Некоторые ссылки:

CloudBase : «CloudBase - это высокопроизводительная система хранилища данных, построенная на основе архитектуры Map-Reduce. Она позволяет бизнес-аналитикам, использующим ANSI SQL, напрямую запрашивать крупномасштабные файлы журналов, возникающие в веб-сайт, телекоммуникации или ИТ-операции. "
RapidMiner : «RapidMiner aleady - это механизм полного анализа данных и бизнес-аналитики, который также охватывает многие связанные аспекты - от ETL (извлечение, преобразование и загрузка) до анализа и составление отчетов».

Zach Bonham · Answer 4 · 15 апреля 2009

В целях полного раскрытия я не использовал никаких коммерческих инструментов для того, что вы описываете.

Вы смотрели на LogParser ? Это может быть более ручным, чем то, что вы ищете, но это позволит вам запрашивать различные структурированные форматы.

Что касается графического аспекта, в него встроены некоторые базовые возможности построения диаграмм, но вы, вероятно, получите гораздо больше пробега, передавая вывод анализатора журнала в табличный / разделенный формат и загружая в Excel. Оттуда вы можете построить график или график практически для всего.

Что касается перекрестного объединения различных источников данных, вы всегда можете закачать все данные в базу данных, где у вас будет более богатый язык для запроса данных.

Приложение для отображения большого количества веб-данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Приложение для отображения большого количества веб-данных

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 4 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов