Как импортировать дамп данных Stackoverflow XML в базу данных для запроса и фильтрации - PullRequest
0 голосов
/ 02 апреля 2020

Я хочу проанализировать дамп данных stackoverflow. Я скачал https://archive.org/download/stackexchange/stackoverflow.com-Posts.7z

После распаковки он составляет <75 ГБ данных. Он содержит все записи, но я хочу отфильтровать данные за последние 2 года, а затем преобразовать и проанализировать их. </p>

Я не мог понять, как запрашивать такой большой объем данных. Один из возможных способов - загрузить его в какую-то базу данных, но пока я не нашел полезного рецепта.

Я бы тоже не прочел прочитать данные, но не знаю как. API-интерфейс Stackoverflow и Data Explorer имеют ограничения, а набор данных Google Bigquery не самый последний.

Любая помощь приветствуется.

Имейте в виду, что я не ученый данных, поэтому мое понимание предмета ограничено.

...