Упростить упрощать упрощать.
Начните с одной таблицы, по крайней мере, с некоторыми столбцами, которые вы понимаете. Загрузите его в несколько dbms (выберите один с геопространственными возможностями и оконными функциями, они могут понадобиться позже: последние версии MariaDB, MySQL и Postre SQL - прекрасный выбор). Импортируйте свою таблицу. Это может быть головной болью, чтобы получить правильный ответ, но в любом случае сделайте все возможное, чтобы все исправить.
Не беспокойтесь о первичных ключах или уникальных индексах, когда начинаете. Вы просто изучаете данные, а не строите их. Не беспокойтесь о покупке или аренде сервера: большинство ноутбуков прекрасно справляются с подобными исследованиями.
Выберите клиентскую программу, которая хранит историю запросов, которые вы ей вводите. Хайди SQL - хороший выбор. Стоит взглянуть на относительно новый Datagrip от Jetbrains. Избегайте Microsoft SQL Server Management Studio: нет функции истории. (Вам часто нужно go вернуться к тому, что вы пробовали несколько часов или дней, а go, когда вы изучаете, поэтому функция истории запросов жизненно важна.)
Затем возитесь с запросами , особенно агрегаты ... например,
SELECT COUNT(*), year, origin, destination
FROM trip
GROUP BY year, origin, destination;
Ищите интересные вещи, которые вы можете почерпнуть из одной таблицы. Понять смысл этого. Затем добавьте еще одну таблицу, которую можно легко ПРИСОЕДИНИТЬ, к первой таблице. Повторите свое исследование.
Это должно помочь вам начать. Как только вы начнете понимать свой набор данных, вы можете приступить к ранжированию, вычислению квинтилей и тому подобное.
И, когда вам нужно обновить или дополнить данные, не перезагружая их, вам понадобятся различные первичные / уникальные ключи. Это в будущем для вас.