Похоже, ваш набор данных больше вашей рабочей памяти (RAM). Например, мой ноутбук имеет 16 ГБ ОЗУ… если я попытаюсь открыть ваш набор данных объемом 50 ГБ, он не поместится в памяти.
Ваш пример имеет половину одного возможного решения ... которое вы можете работать с частью набора данных одновременно, используя параметр "chunksize". Но вы не сможете объединять и читать в одном кадре данных, потому что Pandas требует, чтобы данные помещались в вашу рабочую память. Опять же, я не знаю, что у вас есть, но мой ноутбук имеет 16 ГБ.
Исторически люди работали с большими наборами данных с помощью Hadoop / Spark. Но тогда его сложно настроить, и вам приходится привлекать ИТ-отдел, специалистов по инфраструктуре и т. Д. Итак, в последние несколько лет сообщество Python начало использовать Dask. Я никогда не использовал Dask сам, но здесь есть выступление на PyCon 2018 по этой теме. (Первые несколько секунд видео, вы можете увидеть меня на трибуне, представляя выступающего Мэтью Роклина).
https://www.youtube.com/watch?v=Iq72dt1gO9c
Вот некоторая документация для Dask:
https://docs.dask.org/en/latest/