Я собираюсь написать некоторое программное обеспечение на PHP для синтаксического анализа файлов журнала и агрегирования данных, а затем отображать их в виде графиков (например, гистограммы, а не вершин и ребер).
Да, в основном это программное обеспечение для бизнес-аналитики.В моей компании есть целая команда, но, видимо, они не делают большую работу (10 минут для загрузки страницы просто не делают).
Вот что мне нужно сделать:
- Файлы журналов - это файлы данных, в которых хранятся необработанные данные с сервера статистики, который мы настроили из нашего офиса (мы отправляем асинхронные вызовы на сервер статистики, что-то вроде Google Analytics).Он хранит данные в формате CSV.
- написать скрипт для анализа файлов и агрегирования данных в базу данных (или я думал о redis)
- Будут миллионы и миллионы вещейдля агрегирования, поэтому при отображении статистики это должно быть быстро
Я знаю об OLAP для БД, но если я хочу использовать redis, как вы думаете, он будет масштабироваться для больших объемов данных?Считаете ли вы, что для синтаксического анализа файлов будет достаточно сценария PHP, или я должен использовать что-то более быстрое, например C / C ++?
В принципе, я хотел бы получить некоторые интересные идеи о различных способах выполнения моей задачи.Это должно быть быстро и масштабно.
Есть идеи?