Я знаю, что это не связано с программированием, но я надеюсь, что некоторые отзывы помогут мне избавиться от страданий.
На самом деле у нас много разных данных из наших веб-приложений, датированных много лет назад.
Например, у нас есть
- лог-файлы Apache
- Файлы ежедневной статистики из нашего программного обеспечения для отслеживания (CSV)
- Еще одна ежедневная статистика из общенационального рейтинга рекламы (CSV)
- .. и я, вероятно, могу также получать новые данные из других источников.
Некоторые записи данных начались в 2005 году, некоторые в 2006 году и т. Д. Однако в какой-то момент времени мы начинаем получать данные обо всех из них.
Что я задумала ^ H ^ H ^ H ^ Поиск - это приложение, которое понимает все данные, позволяет загружать их, сравнивать отдельные наборы данных и временные шкалы (графически), сравнивать различные наборы данных в течение одного промежутка времени Позвольте мне фильтровать (особенно файл журнала Apache); и, конечно, все это должно быть в интерактивном режиме.
Только сжатые BZ2 файлы журналов Apache уже составляют 21 ГБ, увеличиваясь в неделю.
У меня не было реального успеха с такими вещами, как awstats, Nihu Web Log Analyzer или аналогичными инструментами. Они могут просто генерировать статическую информацию, но мне нужно было бы интерактивно запрашивать информацию, применять фильтры, накладывать другие данные и т. Д.
Я также пробовал инструменты для извлечения данных в надежде, что они могут мне помочь, но на самом деле им не удалось их использовать (т. Е. Они над моей головой), например RapidMiner.
Просто чтобы убедиться: это может быть коммерческим приложением. Но все же нужно найти что-то, что действительно полезно .
Почему-то у меня складывается впечатление, что я ищу что-то, чего не существует или у меня неправильный подход. Любые советы приветствуются.
Обновление:
В конце концов это была смесь следующих вещей:
- написал сценарии bash и PHP для анализа и управления файлами журналов, включая множество возможностей фильтрации
- генерирует простой старый CSV-файл для чтения в Excel. Мне повезло использовать Excel 2007, и его графические возможности, хотя все еще работают с фиксированным набором данных, очень помогли
- Я использовал Amazon EC2 для запуска сценария и отправки мне CSV по электронной почте. Мне пришлось пролистать около 200 ГБ данных и, таким образом, использовать один из больших экземпляров для распараллеливания анализа. Мне пришлось выполнить множество попыток синтаксического анализа, чтобы получить правильные данные, общая продолжительность обработки составила 45 минут. Я не знаю, что я мог бы сделать без Amazon EC2. Это стоило каждого доллара, за который я заплатил.