Я хочу проанализировать дамп данных stackoverflow. Я скачал https://archive.org/download/stackexchange/stackoverflow.com-Posts.7z
После распаковки он составляет <75 ГБ данных. Он содержит все записи, но я хочу отфильтровать данные за последние 2 года, а затем преобразовать и проанализировать их. </p>
Я не мог понять, как запрашивать такой большой объем данных. Один из возможных способов - загрузить его в какую-то базу данных, но пока я не нашел полезного рецепта.
Я бы тоже не прочел прочитать данные, но не знаю как. API-интерфейс Stackoverflow и Data Explorer имеют ограничения, а набор данных Google Bigquery не самый последний.
Любая помощь приветствуется.
Имейте в виду, что я не ученый данных, поэтому мое понимание предмета ограничено.