Я работаю над академическим проектом, направленным на изучение поведения людей.
Проект будет разделен на три части:
- Программа для чтения данных из некоторых удаленных источников и создания из них локального пула данных.
- Программа для проверки этого пула данных и обеспечения его согласованности
- Веб-интерфейс, позволяющий людям читать / манипулировать данными.
Данные состоят из списка людей с идентификатором # и несколькими характеристиками: рост, вес, возраст, ...
Мне нужно легко составить группы из этих данных (например, все с данным возрастом или диапазоном высот), и данные имеют размер несколько ТБ (но могут быть уменьшены в меньших подмножествах по 2-3 ГБ).
У меня есть глубокие теоретические знания о проекте, но я не ученый. Я знаю Java, C и Matlab, и теперь я изучаю Python.
Я хотел бы использовать python, поскольку он кажется достаточно простым и значительно снижает многословность Java. Проблема в том, что мне интересно, как обращаться с пулом данных.
Я не специалист по базам данных, но, думаю, мне здесь нужен. Как вы думаете, какие инструменты я должен использовать?
Помните, что целью является реализация очень сложных математических функций для наборов данных, поэтому мы хотим уменьшить сложность исходного кода. Скорость не проблема.