Я хотел бы услышать мысли об использовании баз данных временных рядов для этого проекта: - PullRequest
2 голосов
/ 30 апреля 2020

Проект состоит в сборе продольных данных о заключенных в государственной пенитенциарной системе с целью выявления временных моделей и расширения прав и возможностей защитников тюремного правосудия. Вопрос в том, какую временную серию мне использовать?

Моя отправная точка - эта статья:

https://medium.com/schkn/4-best-time-series-databases-to-watch-in-2019-ef1e89a72377 и похоже, что первые 3 (InfluxDB, TimescaleDB, OpenTSDB) включены таблица, но не столько последняя (я имею в виду гораздо больше, чем строго числовые данные)

Детали проекта:

В настоящее время я использую Postgres и планируем обновить схему, чтобы она выглядела (в общих чертах):

  • полей с низкой волатильностью, таких как: идентификационный номер, имя, раса, пол, дата рождения
  • поля более высокой волатильности, такие как: текущее учреждение, дата выпуска, дата получения права на условно-досрочное освобождение и т. Д. c
  • административные данные временного ряда: начальный ток, конечный ток, проверенный период. Где это показывает период времени, вышеупомянутые 2 поля данных являются текущими и как часто они проверялись на изменения.

Я думаю, что было бы лучше перейти к базе данных временных рядов и отслеживать каждое отдельное обновление, а не проверять некоторую описательную информацию, связанную с датой начала, датой окончания и периодом. поле. (например, действительный с 2020-01-01 по 2021-08-25, проверяется каждые 14 дней)

Что я хочу расставить по приоритетам, так это скорость получения отчетов (например, какой процент заключенных, сгруппированных по определенным демографическим данным, вышел из системы перед тем как отбывать 90% своего предложения?) через пропускную способность и пространство для хранения. Мне также интересно услышать мнения о легкости обучения, известности в отрасли и т. Д. c.

Мое прошлое:

Я учусь в Botacamp по науке о данных и имею опыт работы в CS. В прошлом я работал с базами данных SQL (Postgres, SQLite) и No SQL (Mon go), и моя способность к моделированию БД относится к классу баз данных старшекурсников. Я больше всего знаком с Java и Python (и многими пакетами python по науке о данных), но изучение нового языка не является огромным препятствием.

Спасибо за ваше время!

...