Проект состоит в сборе продольных данных о заключенных в государственной пенитенциарной системе с целью выявления временных моделей и расширения прав и возможностей защитников тюремного правосудия. Вопрос в том, какую временную серию мне использовать?
Моя отправная точка - эта статья:
https://medium.com/schkn/4-best-time-series-databases-to-watch-in-2019-ef1e89a72377 и похоже, что первые 3 (InfluxDB, TimescaleDB, OpenTSDB) включены таблица, но не столько последняя (я имею в виду гораздо больше, чем строго числовые данные)
Детали проекта:
В настоящее время я использую Postgres и планируем обновить схему, чтобы она выглядела (в общих чертах):
- полей с низкой волатильностью, таких как: идентификационный номер, имя, раса, пол, дата рождения
- поля более высокой волатильности, такие как: текущее учреждение, дата выпуска, дата получения права на условно-досрочное освобождение и т. Д. c
- административные данные временного ряда: начальный ток, конечный ток, проверенный период. Где это показывает период времени, вышеупомянутые 2 поля данных являются текущими и как часто они проверялись на изменения.
Я думаю, что было бы лучше перейти к базе данных временных рядов и отслеживать каждое отдельное обновление, а не проверять некоторую описательную информацию, связанную с датой начала, датой окончания и периодом. поле. (например, действительный с 2020-01-01 по 2021-08-25, проверяется каждые 14 дней)
Что я хочу расставить по приоритетам, так это скорость получения отчетов (например, какой процент заключенных, сгруппированных по определенным демографическим данным, вышел из системы перед тем как отбывать 90% своего предложения?) через пропускную способность и пространство для хранения. Мне также интересно услышать мнения о легкости обучения, известности в отрасли и т. Д. c.
Мое прошлое:
Я учусь в Botacamp по науке о данных и имею опыт работы в CS. В прошлом я работал с базами данных SQL (Postgres, SQLite) и No SQL (Mon go), и моя способность к моделированию БД относится к классу баз данных старшекурсников. Я больше всего знаком с Java и Python (и многими пакетами python по науке о данных), но изучение нового языка не является огромным препятствием.
Спасибо за ваше время!