Статистический анализ большого набора данных для публикации в Интернете - PullRequest
4 голосов
/ 19 апреля 2010

У меня есть не связанный с компьютером регистратор данных, который собирает данные с поля. Эти данные хранятся в виде текстовых файлов, и я вручную объединяю их в файлы и систематизирую их. Текущий формат - через CSV-файл в год на регистратор. Каждый файл составляет около 4 000 000 строк x 7 регистраторов x 5 лет = много данных. некоторые данные организованы в виде бункеров item_type, item_class, item_dimension_class, а другие данные более уникальны, такие как item_weight, item_color, date_collected и т. д. ...

В настоящее время я делаю статистический анализ данных, используя написанную мной программу python / numpy / matplotlib. Он работает нормально, но проблема в том, что я единственный, кто может его использовать, поскольку он и данные хранятся на моем компьютере.

Я бы хотел опубликовать данные в Интернете, используя postgres db; однако мне нужно найти или внедрить статистический инструмент, который возьмет большую таблицу postgres и вернет статистические результаты в течение адекватного периода времени. Я не знаком с Python для Интернета; Тем не менее, я хорошо владею PHP на веб-стороне и Python на автономной.

Пользователи должны иметь возможность создавать свои собственные гистограммы, анализ данных. Например, пользователь может искать все товары, которые поставляются синим цветом между неделей x и неделей y, тогда как другой пользователь может искать сортировку распределения веса всех предметов по часам в течение всего года.

Я думал о создании и индексации своих собственных статистических инструментов или автоматизации процесса, чтобы имитировать большинство запросов. Это казалось неэффективным.

Я с нетерпением жду ваших идей

Спасибо

1 Ответ

1 голос
/ 19 апреля 2010

Я думаю, что вы можете использовать вашу текущую комбинацию (python / numpy / matplotlib) полностью, если число пользователей не слишком велико. Я делаю несколько подобных работ, и мой размер данных чуть больше 10g. Данные хранятся в нескольких файлах sqlite, и я использую numpy для анализа данных, PIL / matplotlib для создания файлов диаграмм (png, gif), cherrypy как веб-сервер, mako как язык шаблонов.

Если вам нужно больше базы данных сервера / клиента, вы можете перейти на postgresql, но вы все равно можете полностью использовать свои текущие программы, если вы используете веб-фреймворк Python, такой как cherrypy.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...